Windows10にApacheSparkをインストールする方法

はじめに

Apache Sparkは、複数のソースからの大量のストリームデータを処理するオープンソースフレームワークです。 Sparkは、機械学習アプリケーション、データ分析、グラフ並列処理を使用した分散コンピューティングで使用されます。

このガイドでは、Windows10にApacheSparkをインストールする方法について説明します。インストールをテストします。

前提条件

Windows10を実行しているシステム
管理者権限を持つユーザーアカウント（ソフトウェアのインストール、ファイルのアクセス許可の変更、およびシステムPATHの変更に必要）
コマンドプロンプトまたはPowershell
7-Zipなどの.tarファイルを抽出するためのツール

WindowsにApacheSparkをインストールする

Windows10へのApacheSparkのインストールは、初心者ユーザーには複雑に思えるかもしれませんが、この簡単なチュートリアルで実行できます。すでにJava8とPython3がインストールされている場合は、最初の2つの手順をスキップできます。

ステップ1：Java8をインストールする

ApacheSparkにはJava8が必要です。コマンドプロンプトを使用して、Javaがインストールされているかどうかを確認できます。

開始をクリックしてコマンドラインを開きます>「cmd」と入力します>コマンドプロンプトをクリックします。

コマンドプロンプトに次のコマンドを入力します。

java -version

Javaがインストールされている場合、次の出力で応答します。

お使いのバージョンは異なる場合があります。 2桁目はJavaバージョンです。この場合はJava8です。

Javaがインストールされていない場合：

1.ブラウザウィンドウを開き、https：//java.com/en/download/に移動します。

2.Javaダウンロードをクリックしますボタンを押して、ファイルを選択した場所に保存します。

3.ダウンロードが完了したら、ファイルをダブルクリックしてJavaをインストールします。

ステップ2：Pythonをインストールする

1. Pythonパッケージマネージャーをインストールするには、Webブラウザーでhttps://www.python.org/に移動します。

2.ダウンロードの上にマウスを置きますメニューオプションをクリックし、 Python 3.8.3をクリックします。 3.8.3は、記事を書いている時点での最新バージョンです。

3.ダウンロードが完了したら、ファイルを実行します。

4.最初のセットアップダイアログボックスの下部にある[Python3.8をPATHに追加]をオフにします。。もう一方のチェックボックスはオンのままにします。

5.次に、[インストールのカスタマイズ]をクリックします。

6.このステップですべてのチェックボックスをオンのままにするか、不要なオプションのチェックを外すことができます。

7.次へをクリックします。

8.ボックスすべてのユーザーにインストールを選択します他のボックスはそのままにしておきます。

9.[インストール場所のカスタマイズ]で参照をクリックします Cドライブに移動します。新しいフォルダを追加し、 Pythonという名前を付けます。

10.そのフォルダを選択し、[ OK]をクリックします。

11.インストールをクリックします、インストールを完了させます。

12.インストールが完了したら、パスの長さの制限を無効にするをクリックします。下部にあるオプションをクリックし、[閉じる]をクリックします。

13.コマンドプロンプトを開いている場合は、コマンドプロンプトを再起動します。 Pythonのバージョンを確認して、インストールを確認します。

python --version

出力はPython 3.8.3を出力する必要があります 。

ステップ3：ApacheSparkをダウンロードする

1.ブラウザーを開き、https：//spark.apache.org/downloads.htmlに移動します。

2.ダウンロードApacheSparkの下見出しには、2つのドロップダウンメニューがあります。現在の非プレビューバージョンを使用します。

この場合、Sparkリリースを選択してください ドロップダウンメニューで2.4.5（2020年2月5日）を選択します。
2番目のドロップダウンでパッケージタイプを選択 、 ApacheHadoop2.7用にビルド済みを選択したままにします。

3. spark-2.4.5-bin-hadoop2.7.tgzをクリックしますリンク。

4.ミラーのリストがロードされたページで、ダウンロード元のさまざまなサーバーを確認できます。リストからいずれかを選択し、ファイルをダウンロードフォルダに保存します。

ステップ4：Sparkソフトウェアファイルを確認する

1. チェックサムをチェックして、ダウンロードの整合性を確認しますファイルの。これにより、変更されていない、破損していないソフトウェアで作業していることが保証されます。

2.スパークダウンロードに戻りますページを開き、チェックサムを開きますリンク、できれば新しいタブで。

3.次に、コマンドラインを開き、次のコマンドを入力します。

certutil -hashfile c:\users\username\Downloads\spark-2.4.5-bin-hadoop2.7.tgz SHA512

4。ユーザー名を自分のユーザー名に変更します。 Certutil: -hashfile completed successfullyというメッセージとともに、長い英数字のコードが表示されます。 。

5.コードを新しいブラウザタブで開いたコードと比較します。それらが一致する場合、ダウンロードファイルは破損していません。

ステップ5：ApacheSparkをインストールする

Apache Sparkのインストールには、ダウンロードしたファイルの抽出が含まれます。目的の場所に移動します。

1. Sparkという名前の新しいフォルダを作成します C：ドライブのルートにあります。コマンドラインから、次のように入力します。

cd \

mkdir Spark

2.エクスプローラーで、ダウンロードしたSparkファイルを見つけます。

3.ファイルを右クリックして、 C：\ Sparkに解凍します。システムにあるツール（7-Zipなど）を使用します。

4.これで、 C：\ Spark フォルダに新しいフォルダがありますspark-2.4.5-bin-hadoop2.7 必要なファイルが入っています。

ステップ6：winutils.exeファイルを追加する

winutils.exeをダウンロードしますダウンロードしたSparkインストールの基盤となるHadoopバージョンのファイル。

1.このURLhttps://github.com/cdarlint/winutilsおよびbin内に移動しますフォルダで、 winutils.exeを見つけます、クリックします。

2.ダウンロードを見つけます右側のボタンをクリックしてファイルをダウンロードします。

3.次に、新しいフォルダーを作成します Hadoop およびビン Cの場合：Windowsエクスプローラーまたはコマンドプロンプトを使用します。

4.winutils.exeファイルをダウンロードフォルダーからC：\ hadoop \ binにコピーします。

ステップ7：環境変数を構成する

Windowsで環境変数を構成すると、SparkとHadoopの場所がシステムのPATHに追加されます。コマンドプロンプトウィンドウから直接Sparkシェルを実行できます。

1.開始をクリックします環境と入力します。

2.システム環境変数の編集というラベルの付いた結果を選択します。

3.[システムのプロパティ]ダイアログボックスが表示されます。右下隅にある[環境変数]をクリックします次に、[新規]をクリックします次のウィンドウで。

4.変数名の場合 SPARK_HOMEと入力します。

5.変数値の場合 C：\ Spark \ spark-2.4.5-bin-hadoop2.7と入力します [OK]をクリックします。フォルダパスを変更した場合は、代わりにそのパスを使用してください。

6.上部のボックスで、[パス]をクリックしますエントリをクリックし、編集をクリックします。システムパスの編集には注意してください。すでにリストにあるエントリは削除しないでください。

7.左側にエントリのあるボックスが表示されます。右側で、[新規]をクリックします。

8.システムは新しい行を強調表示します。 Sparkフォルダへのパスを入力しますC：\ Spark \ spark-2.4.5-bin-hadoop2.7 \ bin 。 ％SPARK_HOME％\ binの使用をお勧めしますパスで発生する可能性のある問題を回避するため。

9.HadoopとJavaに対してこのプロセスを繰り返します。

Hadoopの場合、変数名は HADOOP_HOMEです。値には、前に作成したフォルダーのパス C：\hadoopを使用します。 C：\ hadoop \ binを追加します パス変数へフィールドですが、％HADOOP_HOME％\ binを使用することをお勧めします。
Javaの場合、変数名は JAVA_HOME 値には、Java JDKディレクトリへのパスを使用します（この場合は、 C：\ Program Files \ Java \ jdk1.8.0_251 。

10. OKをクリックします開いているすべてのウィンドウを閉じます。

ステップ8：Sparkを起動する

1.右クリックして管理者として実行を使用して、新しいコマンドプロンプトウィンドウを開きます：

2. Sparkを起動するには、次のように入力します。

C:\Spark\spark-2.4.5-bin-hadoop2.7\bin\spark-shell

環境パスを設定した場合正しくは、 spark-shellと入力できます Sparkを起動します。

3.システムは、アプリケーションのステータスを示すいくつかの行を表示する必要があります。 Javaポップアップが表示される場合があります。 アクセスを許可を選択します続行します。

最後に、Sparkのロゴが表示され、プロンプトにScalaシェルが表示されます。。

4.、Webブラウザーを開き、 http：// localhost：4040 /に移動します。。

5. localhostを置き換えることができますシステムの名前で。

6.ApacheSparkシェルのWebUIが表示されます。以下の例は、エグゼキュータを示しています。ページ。

7. Sparkを終了してScalaシェルを閉じるには、 ctrl-dを押します。 コマンドプロンプトウィンドウで。

テストスパーク

この例では、Sparkシェルを起動し、Scalaを使用してファイルの内容を読み取ります。 READMEなどの既存のファイルを使用できます Sparkディレクトリのファイル、または独自のファイルを作成できます。 pnaptestを作成しましたテキスト付き。

1.コマンドプロンプトウィンドウを開き、使用するファイルのあるフォルダーに移動して、Sparkシェルを起動します。

2.最初に、Sparkコンテキストで使用する変数をファイルの名前で記述します。ファイル拡張子がある場合は、忘れずに追加してください。

val x =sc.textFile("pnaptest")

3.出力は、RDDが作成されたことを示しています。次に、次のコマンドを使用してアクションを呼び出すことにより、ファイルの内容を表示できます。

x.take(11).foreach(println)

このコマンドは、指定したファイルから11行を印刷するようにSparkに指示します。このファイルに対してアクションを実行するには（値x ）、別の値を追加します y 、およびマップ変換を実行します。

4.たとえば、次のコマンドを使用して文字を逆に印刷できます。

val y = x.map(_.reverse)

5.システムは、最初のRDDに関連して子RDDを作成します。次に、値 yから印刷する行数を指定します：

y.take(11).foreach(println)

出力には、11行の pnaptestが出力されます。逆の順序でファイルします。

完了したら、 ctrl-dを使用してシェルを終了します 。