このチュートリアルでは、Debian 9StretchにApacheHadoopをインストールする方法を紹介します。知らない人のために、ApacheHadoopは分散ストレージに使用されるオープンソースフレームワークです。 HadoopはデータをHadoop分散ファイルシステム(HDFS)に保存し、このデータの処理はMapReduceを使用して行われます。YARNはリソースを要求および割り当てるためのAPIを提供します。 Hadoopクラスター内。
この記事は、少なくともLinuxの基本的な知識があり、シェルの使用方法を知っていること、そして最も重要なこととして、サイトを独自のVPSでホストしていることを前提としています。インストールは非常に簡単で、ルートアカウントで実行されていますが、そうでない場合は、'sudo
を追加する必要があります。 ルート権限を取得するコマンドに‘。 Debian 9(Stretch)サーバーへのApacheHadoopのインストールを段階的に説明します。
前提条件
- 次のオペレーティングシステムのいずれかを実行しているサーバー:Debian 9(Stretch)。
- 潜在的な問題を防ぐために、OSの新規インストールを使用することをお勧めします。
- サーバーへのSSHアクセス(またはデスクトップを使用している場合はターミナルを開く)
non-root sudo user
またはroot user
へのアクセス 。non-root sudo user
として行動することをお勧めします ただし、ルートとして機能するときに注意しないと、システムに害を及ぼす可能性があるためです。
Debian9StretchにApacheHadoopをインストールする
ステップ1.ソフトウェアをインストールする前に、次のapt-get
を実行して、システムが最新であることを確認することが重要です。 ターミナルのコマンド:
apt-get update apt-get upgrade
ステップ2.Java(OpenJDK)をインストールします。
Apache HadoopにはJavaバージョン8以降が必要です。したがって、OpenJDKまたはOracleJDKのいずれかをインストールすることを選択できます。
- DebianにJavaJDK8をインストールします:
[email protected] ~# java -version java version "1.8.0_192" Java(TM) SE Runtime Environment (build 1.8.0_192-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
ステップ3.Debian9にApacheHadoopをインストールします。
セキュリティの問題を回避するために、次のコマンドに従って、新しいHadoopユーザーグループとユーザーアカウントを設定して、Hadoop関連のすべてのアクティビティを処理することをお勧めします。
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
ユーザーを作成した後、独自のアカウントでキーベースのsshを設定する必要もあります。これを行うには、次のコマンドを実行します。
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
次に、Apache Hadoopの最新の安定バージョンをダウンロードします。この記事を書いている時点では、バージョン2.8.1です:
wget http://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz tar xzf hadoop-3.1.1.tar.gz mv hadoop-3.1.1 hadoop
ステップ4.環境ApacheHadoopをセットアップします。
環境変数を設定します。~/.bashrc
を編集します ファイルを作成し、ファイルの最後に次の値を追加します。
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
現在実行中のセッションに環境変数を適用します:
source ~/.bashrc
ここで、$HADOOP_HOME/etc/hadoop/hadoop-env.sh
を編集します ファイルを作成し、JAVA_HOME環境変数を設定します:
export JAVA_HOME=/usr/jdk1.8.0_192/
Hadoopには多くの構成ファイルがあり、Hadoopインフラストラクチャの要件に従って構成する必要があります。基本的なHadoopシングルノードクラスターのセットアップから始めましょう。
cd $HADOOP_HOME/etc/hadoop
core-site.xml
を編集します :
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
hdfs-site.xml
を編集します :
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
mapred-site.xml
を編集します :
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
yarn-site.xml
を編集します :
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
次のコマンドを使用してnamenodeをフォーマットします。ストレージディレクトリを確認することを忘れないでください:
hdfs namenode -format
次のコマンドを使用してすべてのHadoopサービスを開始します:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
出力を観察して、スレーブノードでデータノードを1つずつ開始しようとしていることを確認する必要があります。'jps
‘コマンド:
jps
ステップ5.ApacheHadoopのファイアウォールをセットアップします。
ファイアウォールを介したApache Hadoopの許可:
ufw allow 50070/tcp ufw allow 8088/tcp ufw reload
ステップ6.ApacheHadoopにアクセスします。
Apache Hadoopは、デフォルトでHTTPポート8088およびポート50070で使用できます。お気に入りのブラウザーを開き、http://yourdomain.com:50070
またはhttp://server-ip:50070
。
おめでとうございます!ApacheHadoopが正常にインストールされました。Debian9StretchシステムにApacheHadoopをインストールするためにこのチュートリアルを使用していただき、ありがとうございます。追加のヘルプや役立つ情報については、ApacheHadoopの公式Webサイトを確認することをお勧めします。 。