Ubuntu20.04にApacheSparkをインストールして構成する

Apache Sparkは、大規模な分析データと機械学習処理のためのオープンソースの計算フレームワークです。これは、scala、R、Python、Javaなどのさまざまな優先言語をサポートしています。 Sparkストリーミング用の高レベルのツール、グラフ処理用のGraphX、SQL、MLLibを提供します。

ここLinuxAPTでは、サーバー管理サービスの一環として、お客様が関連するLinuxシステムクエリを実行するのを定期的に支援しています。

これに関連して、Ubuntu20.04LTSバージョンシステムにApacheSparkをインストールして構成する方法を検討します。

Apache Sparkをインストールする前に、システムにScalaをインストールする必要があります。

UbuntuにScalaをインストールする方法は？

JavaとScalaをまだインストールしていない場合は、次のプロセスに従ってインストールできます。

Javaの場合、オープンJDK 8をインストールするか、以下のコマンドを実行して希望のバージョンをインストールできます。

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Javaのインストールを確認する必要がある場合は、次のコマンドを実行できます。

$ java -version

Scalaに関して言えば、scalaはオブジェクト指向で関数型プログラミング言語であり、Scalaを1つの簡潔なものにまとめたものです。 ScalaはjavascriptランタイムとJVMの両方と互換性があり、高性能システムの構築に役立つ大規模なライブラリエコシステムに簡単にアクセスできます。次のaptコマンドを実行してscalaをインストールします。

$ sudo apt update
$ sudo apt install scala

次に、バージョンを確認してインストールを確認します。

$ scala -version

UbuntuにApacheSparkをインストールするにはどうすればいいですか？

apache-sparkをインストールするための公式のaptリポジトリはありませんが、公式サイトからバイナリをプリコンパイルできます。次のwgetコマンドとリンクを使用して、バイナリファイルをダウンロードします。

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

次に、次のtarコマンドを使用して、ダウンロードしたバイナリファイルを抽出します。

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

最後に、抽出したsparkファイルを/optディレクトリに移動します。

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Apache Spark環境変数を設定する方法は？

コマンドが完全なパスなしで機能するために設定する必要のあるファイルの.profileにあるsparkのパス変数は、echoコマンドを使用するか、適切なテキストエディターを使用して手動で実行できます。より簡単な方法として、次のechoコマンドを実行します。

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

>>操作でechoを使用して、.profileファイルの下部にパス変数が追加されていることがわかります。

次に、次のコマンドを実行して、新しい環境変数の変更を適用します。

$ source ~/.profile

インストールとセットアップ後にApacheSparkをデプロイする方法は？

これで、次のコマンドを使用して、マスターサービスとワーカーサービスを実行できるすべての設定が完了しました。

$ start-master.sh

Sparkマスターサービスがポート8080で実行されていることがわかります。sparkのデフォルトポートであるポート8080でローカルホストを参照すると。 URLを参照すると、次のタイプのユーザーインターフェイスが表示される場合があります。マスターサービスのみを開始しても、実行中のワーカープロセッサが見つからない場合があります。ワーカーサービスを開始すると、新しいノードが一覧表示されます。

ブラウザでマスターページを開くと、このホストを介してワーカーサービスを接続するために使用されるsparkマスターspark：// HOST：PORTURLが表示されます。現在のホストの場合、sparkマスターのURLはspark：//Linuxapt.localdomain：7077であるため、ワーカープロセスを開始するには、次の方法でコマンドを実行する必要があります。

$ start-workers.sh <spark-master-url>

次のコマンドを実行してワーカーサービスを実行するには：

$ start-workers.sh spark://Linuxapt.localdomain:7077

また、次のコマンドを実行して、spark-shellを使用できます。

$ spark-shell