このチュートリアルでは、CentOS8にApacheSparkをインストールする方法を示します。知らない人のために、ApacheSparkは高速で汎用のクラスターコンピューティングシステムです。 Java、Scala、Pythonで高レベルのAPIを提供し、実行チャート全体をサポートする最適化されたエンジンも提供します。また、SQL用のSpark SQLや構造化情報処理、機械学習用のMLlibなどの高レベルツールの豊富なセットもサポートします。 、グラフ処理用のGraphX、およびSparkStreaming。
この記事は、少なくともLinuxの基本的な知識があり、シェルの使用方法を知っていること、そして最も重要なこととして、サイトを独自のVPSでホストしていることを前提としています。インストールは非常に簡単で、ルートアカウントで実行されていますが、そうでない場合は、' sudo
を追加する必要があります。 ルート権限を取得するコマンドに‘。 CentOS8へのApacheSparkの段階的なインストールを紹介します。
前提条件
- 次のオペレーティングシステムのいずれかを実行しているサーバー:CentOS8。
- 潜在的な問題を防ぐために、OSの新規インストールを使用することをお勧めします。
非rootsudoユーザー
またはrootユーザー
へのアクセス 。非rootsudoユーザー
として行動することをお勧めします ただし、ルートとして機能するときに注意しないと、システムに害を及ぼす可能性があるためです。
CentOS8にApacheSparkをインストールする
ステップ1.まず、システムが最新であることを確認し、必要なすべての依存関係をインストールすることから始めましょう。
sudo dnf install epel-release sudo dnf update
ステップ2.Javaをインストールします。
この記事のJavaインストールについては、前の記事で説明しました。Javaインストールの記事を参照します。次に、以下のコマンドラインでJavaバージョンを確認します。
java -version
ステップ3.Scalaをインストールします。
Apache SparkはScalaプログラミング言語で実装されているため、Apache Sparkを実行するにはScalaをインストールする必要があるため、JavaとPythonが存在することを確認する必要があります:
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
インストールしたら、scalaのバージョンを確認してください:
scala -version
ステップ4.CentOS8にApacheSparkをインストールします。
これで、Apache Sparkの最新バージョンを公式ソースからダウンロードします:
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Sparkを開始する前にいくつかの環境変数を設定します:
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
スタンドアロンのSparkクラスターは手動で開始できます。つまり、各ノードで開始スクリプトを実行するか、使用可能な起動スクリプトを使用するだけです。テストでは、マスターデーモンとスレーブデーモンを実行できます。同じマシン上で:
./sbin/start-master.sh
ステップ5.ApacheSparkのファイアウォールを構成します。
次のコマンドを実行して、ファイアウォールのポートを開きます。
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
ステップ6.ApacheSparkWebインターフェースへのアクセス。
Apache SparkはデフォルトでHTTPポート7077で使用できます。お気に入りのブラウザーを開き、http://your-domain.com:7077<に移動します。 / code> または
http:// server-ip-address:7077
インストールを完了するために必要な手順を完了します。
おめでとうございます!ApacheSparkが正常にインストールされました。CentOS8システムにApacheSparkオープンソースフレームワークをインストールするためにこのチュートリアルを使用していただきありがとうございます。追加のヘルプまたは有用な情報については、 ApacheSparkの公式ウェブサイト。