Ubuntu 20.04 に Hadoop をインストールする方法

この記事では、Ubuntu 20.04 LTS に Hadoop をインストールして構成するために必要な手順について説明しました。このチュートリアルを続行する前に、sudo を持つユーザーとしてログインしていることを確認してください特権。このチュートリアルのすべてのコマンドは、root 以外のユーザーとして実行する必要があります。

Apache Hadoop ソフトウェアライブラリは、単純な開発モデルを使用して、コンピューターのクラスター間で大規模なデータセットを分散処理できるようにするフレームワークです。単一のサーバーから数千台のマシンにレベルアップするように設計されており、それぞれがローカルの計算とストレージを提供します。高可用性を実現するためにハードウェアに依存するのではなく、コレクション自体がアプリケーションコーティングで障害を検出して処理するように設計されているため、それぞれが影響を受けやすいコンピューターシステムのクラスターの最上位で高可用性サービスを提供します。

Ubuntu 20.04 に Hadoop をインストールする

ステップ 1. まず、Ubuntu サーバーにパッケージのインストールを開始する前に、すべてのシステムパッケージが更新されていることを確認することを常にお勧めします。

sudo apt update
sudo apt upgrade

ステップ 2. Java をインストールします。

デフォルトの apt リポジトリから OpenJDK をインストールできます:

sudo apt install default-jdk default-jre

Ubuntu 20.04 に Java を正常にインストールしたら、Java コマンドラインでバージョンを確認します。

java -version

ステップ 3. Hadoop ユーザーを作成します。

次のコマンドを実行して、Hadoop という名前の新しいユーザーを作成します:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

次に、次のコマンドを実行して公開鍵と秘密鍵のペアを生成します:

ssh-keygen -t rsa

次に、id_rsa.pub から生成された公開鍵を追加します authorized_keys まで許可を設定します:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

追加されたキーを使用して ssh できることを確認します:

ssh localhost

ステップ 4. Ubuntu システムに Hadoop をインストールします。

公式の Apache Hadoop プロジェクトページに移動し、実装する Hadoop のバージョンを選択します。

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

次に、Ubuntu システムで Hadoop および Java 環境変数を構成する必要があります。

nano ~/.bashrc

次の行を追加します:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

完了したら、環境変数を有効にします:

source ~/.bashrc

次に、Hadoop 環境変数ファイルを開きます:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

ステップ 5. Hadoop を構成します。

次に namenode を作成しますと datanode Hadoop ホームディレクトリ内のディレクトリ:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

次に、core-site.xml を編集しますファイルを開き、システムのホスト名で更新します:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

次の行を変更します:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

次に、hdfs-site.xml を編集しますファイル:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

次の行を変更します:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

次に、mapred-site.xml を編集しますファイル:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

次の変更を行います:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

一度、yarn-site.xml を編集しますファイル:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

次のファイル変更を行います:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

ステップ 6. Hadoop クラスターを開始します。

次のコマンドを実行して、Hadoop Namenode をフォーマットします:

hdfs namenode -format 
start-dfs.sh

次に、次のコマンドを使用して YARN サービスを開始します:

start-yarn.sh

この簡単なコマンドを入力して、すべてのデーモンがアクティブで Java プロセスとして実行されているかどうかを確認します:

jps

ステップ 7. ファイアウォールを構成します。

次のコマンドを実行して、ファイアウォールを通過する Hadoop 接続を許可します:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

ステップ 8. Hadoop へのアクセス。

好みのブラウザを使用して、ローカルホストの URL または IP に移動します。デフォルトのポート番号 9870 を使用すると、Hadoop NameNode UI にアクセスできます。

http://your-ip-address:9870

Ubuntu 20.04 LTS Focal Fossa に Hadoop をインストールするために必要なことはこれだけです。この簡単なヒントがお役に立てば幸いです。 Apache Hadoop の詳細については、公式ナレッジベースを参照してください。ご質問やご提案がありましたら、お気軽にコメントを残してください。