Ubuntu20.04LTSにApacheHadoopをインストールする方法

このチュートリアルでは、Ubuntu 20.04LTSにApacheHadoopをインストールする方法を示します。知らない人のために、ApacheHadoopは分散ストレージに使用されるオープンソースフレームワークです。また、汎用ハードウェアで実行されるコンピューターのクラスターでのビッグデータの分散処理。ライブラリ自体は、ハードウェアに依存して高可用性を提供するのではなく、アプリケーションレイヤーで障害を検出して処理するように設計されているため、高可用性サービスを提供します。コンピュータのクラスタの上にあり、それぞれが障害を起こしやすい可能性があります。

この記事は、少なくともLinuxの基本的な知識があり、シェルの使用方法を知っていること、そして最も重要なこととして、サイトを独自のVPSでホストしていることを前提としています。インストールは非常に簡単で、ルートアカウントで実行されていますが、そうでない場合は、'sudoを追加する必要があります。 ‘ルート権限を取得するコマンドに。 Ubuntu 20.04（Focal Fossa）にFlaskを段階的にインストールする方法を紹介します。 Ubuntu 18.04、16.04、およびLinuxMintなどの他のDebianベースのディストリビューションでも同じ手順に従うことができます。

前提条件

次のオペレーティングシステムのいずれかを実行しているサーバー：Ubuntu 20.04、18.04、16.04、およびLinuxMintなどの他のDebianベースのディストリビューション。
潜在的な問題を防ぐために、OSの新規インストールを使用することをお勧めします。
サーバーへのSSHアクセス（またはデスクトップを使用している場合はターミナルを開く）。
non-root sudo user またはroot userへのアクセス。 non-root sudo userとして行動することをお勧めしますただし、ルートとして機能するときに注意しないと、システムに害を及ぼす可能性があるためです。

Ubuntu 20.04 LTSFocalFossaにApacheHadoopをインストールする

手順1.まず、次のaptを実行して、すべてのシステムパッケージが最新であることを確認します。ターミナルのコマンド。

sudo apt update
sudo apt upgrade

ステップ2.Javaをインストールします。

Hadoopを実行するには、マシンにJava 8がインストールされている必要があります。これを行うには、次のコマンドを使用します。

sudo apt install default-jdk default-jre

インストールしたら、次のコマンドを使用して、インストールされているJavaのバージョンを確認できます。

java -version

ステップ3.Hadoopユーザーを作成します。

まず、次のコマンドを使用してHadoopという名前の新しいユーザーを作成します。

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

次に、Hadoopユーザーでログインし、次のコマンドを使用してSSHキーペアを生成します。

su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

その後、次のコマンドを使用してパスワードなしのSSHを確認します。

ssh localhost

パスワードなしでログインすると、次のステップに進むことができます。

ステップ4.Ubuntu20.04にApacheHadoopをインストールします。

これで、Apache Hadoopの最新の安定バージョンをダウンロードします。この記事を書いている時点では、バージョン3.3.0です：

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz

次に、抽出したディレクトリを/usr/local/に移動します：

sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs

Hadoopディレクトリの所有権をHadoopに変更します：

sudo chown -R hadoop:hadoop /usr/local/hadoop

ステップ5.ApacheHadoopを構成します。

環境変数を設定します。~/.bashrcを編集しますファイルを作成し、ファイルの最後に次の値を追加します。

nano ~/.bashrc

次の行を追加します：

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

現在実行中のセッションに環境変数を適用します：

source ~/.bashrc

次に、hadoop-env.shでJava環境変数を定義する必要があります。 YARN、HDFS、MapReduce、およびHadoop関連のプロジェクト設定を構成するには：

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

次の行を追加します：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

次のコマンドを使用してHadoopのバージョンを確認できるようになりました：

hadoop version

ステップ6.core-site.xmlを構成しますファイル。

core-site.xmlを開きますテキストエディタのファイル：

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

次の行を追加します：

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>

ステップ7.hdfs-site.xmlを構成しますファイル。

次のコマンドを使用して、hdfs-site.xmlを開きます。編集用ファイル：

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

次の行を追加します：

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

ステップ8.mapred-site.xmlを構成しますファイル。

次のコマンドを使用して、mapred-site.xmlにアクセスしますファイル：

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

次の行を追加します：

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

ステップ9.yarn-site.xmlを構成しますファイル。

yarn-site.xmlを開きますテキストエディタのファイル：

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

次の行を追加します：

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

手順10.HDFSNameNodeをフォーマットします。

ここで、Hadoopユーザーでログインし、次のコマンドを使用してHDFSNameNodeをフォーマットします。

su - hadoop
hdfs namenode -format

ステップ11.Hadoopクラスターを開始します。

次に、次のコマンドでNameNodeとDataNodeを起動します。

start-dfs.sh

次に、YARNリソースとノードマネージャーを起動します：

start-yarn.sh

出力を観察して、スレーブノードでデータノードを1つずつ開始しようとしていることを確認する必要があります。'jps ‘コマンド：

jps

ステップ12.ApacheHadoopへのアクセス。

デフォルトのポート番号9870を使用すると、HadoopNameNodeUIにアクセスできます。

http://your-server-ip:9870

デフォルトのポート9864は、ブラウザから直接個々のDataNodeにアクセスするために使用されます：

http://your-server-ip:9864

YARNリソースマネージャーはポート8088からアクセスできます：

http://your-server-ip:8088

おめでとうございます！Hadoopが正常にインストールされました。Ubuntu20.04LTS FocalFossaシステムにApacheHadoopをインストールするためにこのチュートリアルを使用していただき、ありがとうございます。追加のヘルプや役立つ情報については、公式を確認することをお勧めします。 ApacheHadoopのWebサイト。