Ubuntu 18.04 Bionic Beaver に Hadoop をインストールする方法

この記事では、Ubuntu 18.04 LTS に Hadoop をインストールして構成するために必要な手順について説明しました。このチュートリアルを続行する前に、sudo 権限を持つユーザーとしてログインしていることを確認してください。このチュートリアルのすべてのコマンドは、root 以外のユーザーとして実行する必要があります。

Apache Hadoop ソフトウェアライブラリは、単純なプログラミングモデルを使用して、コンピューターのクラスター間で大規模なデータセットの分散処理を可能にするフレームワークです。単一サーバーから数千台のマシンにスケールアップできるように設計されており、それぞれがローカルコンピューティングとストレージを提供します。高可用性を提供するためにハードウェアに依存するのではなく、ライブラリ自体がアプリケーション層で障害を検出して処理するように設計されているため、それぞれが障害を起こしやすいコンピューターのクラスター上で高可用性サービスを提供します。

Ubuntu に Hadoop をインストールする

ステップ 1. まず、Ubuntu サーバーにパッケージをインストールする前に、すべてのシステムパッケージが更新されていることを確認することを常にお勧めします。

sudo apt update
sudo apt upgrade

ステップ 2. Java をインストールします。

Java は Hadoop を実行するための主要な前提条件であるため、マシンに Java をインストールする必要があります。 Hadoop では、Java 6 以降のバージョンがサポートされています。このレッスンのために Java 8 をインストールしましょう:

sudo apt install openjdk-8-jdk-headless

Java が正しくインストールされていることを確認します:

java -version

ステップ 3. Ubuntu 18.04 に Hadoop をインストールします。

Hadoop インストールファイルをダウンロードして、その構成も行えるようにします。

mkdir jd-hadoop && cd jd-hadoop
wget http://mirror.cc.columbia.edu/pub/software/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz

ファイルをダウンロードしたら、次のコマンドを実行してファイルを解凍します:

tar xvzf hadoop-3.2.0.tar.gz

ステップ 4. Hadoop ユーザーアカウントの追加。

マシンに個別の Hadoop ユーザーを作成して、HDFS を元のファイルシステムから分離しておきます。まず、マシンにユーザーグループを作成します。

addgroup hadoop

これで、このグループに新しいユーザーを追加できます:

useradd -G hadoop hadoopuser

最後に、jdhadoopuser ユーザーに root アクセスを提供します。これを行うには、次のコマンドで /etc/sudoers ファイルを開きます:

sudo visudo

ファイルの最後の行に次のように入力します:

hadoopuser ALL=(ALL) ALL

ステップ 5. Hadoop 単一ノードのセットアップ。

単一ノード上の Hadoop とは、Hadoop が単一の Java プロセスとして実行されることを意味します。現在、hadoop のみに存在するように、hadoop アーカイブの名前を変更します。

mv /root/jd-hadoop/hadoop-3.2.0 /root/jd-hadoop/hadoop
chown -R hadoopuser:hadoop /root/jd-hadoop/hadoop

Hadoop のより適切な場所は /usr/local/ ディレクトリなので、そこに移動しましょう:

mv hadoop /usr/local/
cd /usr/local/

次に、.bashrc ファイルを編集して、次のコマンドを使用して Hadoop と Java をパスに追加します:

nano ~/.bashrc

# Configure Hadoop and Java Home
export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$HADOOP_HOME/bin

ここで、Hadoop にも Java が存在する場所を伝えます。これを行うには、hadoop-env.sh ファイルに次のパスを指定します:

find hadoop/ -name hadoop-env.sh

ファイルを編集します:

# nano hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

ステップ 6. Hadoop インストールのテスト。

Hadoop で事前に作成されたサンプルアプリケーションを実行することで、Hadoop のインストールをテストできます。これは、ワードカウンターのサンプル JAR です。

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /usr/local/hadoop/README.txt /root/jd-hadoop/Output

必要に応じて、次のコマンドでこのファイルの内容を表示できます:

cat part-r-00000

Ubuntu 18.04 に Apache Hadoop をインストールするために必要なことはこれだけです。この簡単なヒントがお役に立てば幸いです。質問や提案がある場合は、下にコメントを残してください。