GNU/Linux >> Linux の 問題 >  >> Ubuntu

Ubuntu20.04LTSにApacheSparkをインストールする方法

このチュートリアルでは、Ubuntu 20.04LTSにApacheSparkをインストールする方法を紹介します。知らない人のために、ApacheSparkは高速で汎用のクラスターコンピューティングシステムです。 。Java、Scala、Pythonで高レベルのAPIを提供し、実行チャート全体をサポートする最適化されたエンジンも提供します。また、Spark SQL for SQLや構造化情報処理、MLlibformachineなどの高レベルツールの豊富なセットもサポートします。学習、グラフ処理用のGraphX、およびSparkStreaming。

この記事は、少なくともLinuxの基本的な知識があり、シェルの使用方法を知っていること、そして最も重要なこととして、サイトを独自のVPSでホストしていることを前提としています。インストールは非常に簡単で、ルートアカウントで実行されていますが、そうでない場合は、'sudoを追加する必要があります。 ‘ルート権限を取得するコマンドに。 20.04 LTS(Focal Fossa)サーバーにApacheSparkを段階的にインストールする方法を説明します。 Ubuntu 18.04、16.04、およびLinuxMintなどの他のDebianベースのディストリビューションでも同じ手順に従うことができます。

前提条件

  • 次のオペレーティングシステムのいずれかを実行しているサーバー:Ubuntu 20.04、18.04、16.04、およびLinuxMintなどの他のDebianベースのディストリビューション。
  • 潜在的な問題を防ぐために、OSの新規インストールを使用することをお勧めします。
  • non-root sudo user またはroot userへのアクセス 。 non-root sudo userとして行動することをお勧めします ただし、ルートとして機能するときに注意しないと、システムに害を及ぼす可能性があるためです。

Ubuntu 20.04 LTSFocalFossaにApacheSparkをインストールする

手順1.まず、次のaptを実行して、すべてのシステムパッケージが最新であることを確認します。 ターミナルのコマンド。

sudo apt update
sudo apt upgrade

ステップ2.Javaをインストールします。

Apache Sparkを実行するにはJavaが必要です。UbuntuシステムにJavaがインストールされていることを確認しましょう:

sudo apt install default-jdk

以下のコマンドラインでJavaバージョンを確認します:

java -version

ステップ3.ApacheSparkをダウンロードしてインストールします。

ダウンロードページからApache Sparkの最新リリースをダウンロードします:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
tar xvzf spark-3.0.0-bin-hadoop2.7.tgz
sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark

次に、Apache Spark環境の構成:

nano ~/.bashrc

次に、これらの行を.bashrcファイルの最後に追加して、パスにSpark実行可能ファイルのパスを含めることができるようにします。

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

変更を有効にする:

source ~/.bashrc

手順4.スタンドアロンSparkマスターサーバーを起動します。

Sparkの環境の構成が完了したので、マスターサーバーを起動できます。

start-master.sh

Spark Webユーザーインターフェイスを表示するには、Webブラウザーを開き、ポート8080にローカルホストIPアドレスを入力します。

http://127.0.0.1:8080/

この単一サーバーのスタンドアロンセットアップでは、マスターサーバーとともに1つのスレーブサーバーを起動します。start-slave.sh コマンドは、Sparkワーカープロセスを開始するために使用されます:

start-slave.sh spark://ubuntu1:7077

これでワーカーが稼働しているので、SparkMasterのWebUIをリロードすると、リストに表示されます。

その後、構成を完了してマスターサーバーとスレーブサーバーを起動し、Sparkシェルが機能するかどうかをテストします。

spark-shell

おめでとうございます!ApacheSparkが正常にインストールされました。Ubuntu20.04(Focal Fossa)システムにApache Sparkをインストールするためにこのチュートリアルを使用していただきありがとうございます。追加のヘルプや役立つ情報については、公式を確認することをお勧めしますApacheSparkのWebサイト。


Ubuntu
  1. Ubuntu18.04LTSにApacheCordovaをインストールする方法

  2. Ubuntu18.04LTSにApacheKafkaをインストールする方法

  3. Ubuntu20.04LTSにApacheSolrをインストールする方法

  1. Ubuntu16.04LTSにApacheMavenをインストールする方法

  2. Ubuntu18.04LTSにApacheMavenをインストールする方法

  3. Ubuntu18.04LTSにApacheHadoopをインストールする方法

  1. Ubuntu20.04にApacheSparkをインストールする方法

  2. Ubuntu20.04LTSにApacheCouchDB3.1をインストールする方法

  3. Ubuntu22.04LTSにApacheNetBeansをインストールする方法