GNU/Linux >> Linux の 問題 >  >> Ubuntu

Ubuntu20.04にApacheHadoopをインストールして構成する方法

Apache Hadoopは、クラスター化されたシステムで実行されるさまざまなビッグデータアプリケーションのデータを管理、保存、処理するために使用されるオープンソースフレームワークです。これは、Cおよびシェルスクリプトのネイティブコードを使用してJavaで記述されています。分散ファイルシステム(HDFS)を使用し、単一のサーバーから数千台のマシンにスケールアップします。

Apache Hadoopは、次の4つの主要コンポーネントに基づいています。

  • Hadoop Common: これは、他のHadoopモジュールに必要なユーティリティとライブラリのコレクションです。
  • HDFS: 複数のノードに分散されたHadoop分散ファイルシステムとも呼ばれます。
  • MapReduce: これは、大量のデータを処理するアプリケーションを作成するために使用されるフレームワークです。
  • Hadoop YARN: さらに別のリソースネゴシエーターとしても知られているのは、Hadoopのリソース管理レイヤーです。

このチュートリアルでは、Ubuntu20.04でシングルノードHadoopクラスターをセットアップする方法を説明します。

前提条件
  • 4GBのRAMを搭載したUbuntu20.04を実行しているサーバー。
  • ルートパスワードはサーバーで構成されています。
システムパッケージを更新する

開始する前に、システムパッケージを最新バージョンに更新することをお勧めします。次のコマンドで実行できます:

apt-get update -y
apt-get upgrade -y

システムが更新されたら、システムを再起動して変更を実装します。

Javaのインストール

ApacheHadoopはJavaベースのアプリケーションです。したがって、システムにJavaをインストールする必要があります。次のコマンドでインストールできます:

apt-get install default-jdk default-jre -y

インストールしたら、次のコマンドを使用して、インストールされているJavaのバージョンを確認できます。

java -version

次の出力が得られるはずです:

openjdk version "11.0.7" 2020-04-14
OpenJDK Runtime Environment (build 11.0.7+10-post-Ubuntu-3ubuntu1)
OpenJDK 64-Bit Server VM (build 11.0.7+10-post-Ubuntu-3ubuntu1, mixed mode, sharing)

Hadoopユーザーを作成してパスワードなしのSSHをセットアップ

まず、次のコマンドを使用して、hadoopという名前の新しいユーザーを作成します。

adduser hadoop

次に、hadoopユーザーをsudoグループに追加します
usermod -aG sudo hadoop

次に、hadoopユーザーでログインし、次のコマンドを使用してSSHキーペアを生成します。

su - hadoop
ssh-keygen -t rsa

次の出力が得られるはずです:

Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 
Created directory '/home/hadoop/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /home/hadoop/.ssh/id_rsa
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub
The key fingerprint is:
SHA256:HG2K6x1aCGuJMqRKJb+GKIDRdKCd8LXnGsB7WSxApno [email protected]
The key's randomart image is:
+---[RSA 3072]----+
|..=..            |
| O.+.o   .       |
|oo*.o + . o      |
|o .o * o +       |
|o+E.= o S        |
|=.+o * o         |
|*.o.= o o        |
|=+ o.. + .       |
|o ..  o .        |
+----[SHA256]-----+

次に、このキーを承認済みsshキーに追加し、適切な権限を付与します。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

次に、次のコマンドを使用してパスワードなしのSSHを確認します。

ssh localhost

パスワードなしでログインすると、次のステップに進むことができます。

Hadoopをインストールする

まず、hadoopユーザーでログインし、次のコマンドを使用して最新バージョンのHadoopをダウンロードします。

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

ダウンロードが完了したら、次のコマンドを使用してダウンロードしたファイルを抽出します。

tar -xvzf hadoop-3.2.1.tar.gz

次に、抽出したディレクトリを/ usr / local /に移動します:

sudo mv hadoop-3.2.1 /usr/local/hadoop

次に、次のコマンドを使用して、ログを保存するディレクトリを作成します。

sudo mkdir /usr/local/hadoop/logs

次に、hadoopディレクトリの所有権をhadoopに変更します:

sudo chown -R hadoop:hadoop /usr/local/hadoop

次に、Hadoop環境変数を構成する必要があります。 〜/ .bashrcファイルを編集することでそれを行うことができます:

nano ~/.bashrc

次の行を追加します:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

終了したら、ファイルを保存して閉じます。次に、次のコマンドを使用して環境変数をアクティブ化します。

source ~/.bashrc
Hadoopを構成する

このセクションでは、単一ノードでHadoopをセットアップする方法を学習します。

Java環境変数の構成

次に、hadoop-env.shでJava環境変数を定義して、YARN、HDFS、MapReduce、およびHadoop関連のプロジェクト設定を構成する必要があります。

まず、次のコマンドを使用して正しいJavaパスを見つけます。

which javac

次の出力が表示されます。

/usr/bin/javac

次に、次のコマンドを使用してOpenJDKディレクトリを検索します。

readlink -f /usr/bin/javac

次の出力が表示されます。

/usr/lib/jvm/java-11-openjdk-amd64/bin/javac

次に、hadoop-env.shファイルを編集し、Javaパスを定義します。

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

次の行を追加します:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

次に、Javaxアクティベーションファイルもダウンロードする必要があります。次のコマンドでダウンロードできます:

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

これで、次のコマンドを使用してHadoopのバージョンを確認できます。

hadoop version

次の出力が得られるはずです:

Hadoop 3.2.1
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r b3cbbb467e22ea829b3808f4b7b01d07e0bf3842
Compiled by rohithsharmaks on 2019-09-10T15:56Z
Compiled with protoc 2.5.0
From source with checksum 776eaf9eee9c0ffc370bcbc1888737
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.2.1.jar
を使用して実行します

core-site.xmlファイルを構成します

次に、NameNodeのURLを指定する必要があります。これは、core-site.xmlファイルを編集することで実行できます:

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

次の行を追加します:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>

</configuration>

終了したら、ファイルを保存して閉じます:

hdfs-site.xmlファイルを構成します

次に、ノードメタデータ、fsimageファイル、および編集ログファイルを保存する場所を定義する必要があります。これは、hdfs-site.xmlファイルを編集することで実行できます。まず、ノードメタデータを保存するためのディレクトリを作成します。

sudo mkdir -p /home/hadoop/hdfs/{namenode,datanode}
sudo chown -R hadoop:hadoop /home/hadoop/hdfs

次に、hdfs-site.xmlファイルを編集して、ディレクトリの場所を定義します。

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

次の行を追加します:

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

ファイルを保存して閉じます。

mapred-site.xmlファイルを構成します

次に、MapReduce値を定義する必要があります。 mapred-site.xmlファイルを編集して定義できます:

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

次の行を追加します:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

ファイルを保存して閉じます。

yarn-site.xmlファイルを構成します

次に、yarn-site.xmlファイルを編集し、YARN関連の設定を定義する必要があります。

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

次の行を追加します:

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

終了したら、ファイルを保存して閉じます。

HDFSNameNodeのフォーマット

次に、Hadoop構成を検証し、HDFSNameNodeをフォーマットする必要があります。

まず、Hadoopユーザーでログインし、次のコマンドを使用してHDFSNameNodeをフォーマットします。

su - hadoop
hdfs namenode -format

次の出力が得られるはずです:

2020-06-07 11:35:57,691 INFO util.GSet: VM type       = 64-bit
2020-06-07 11:35:57,692 INFO util.GSet: 0.25% max memory 1.9 GB = 5.0 MB
2020-06-07 11:35:57,692 INFO util.GSet: capacity      = 2^19 = 524288 entries
2020-06-07 11:35:57,706 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.window.num.buckets = 10
2020-06-07 11:35:57,706 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.num.users = 10
2020-06-07 11:35:57,706 INFO metrics.TopMetrics: NNTop conf: dfs.namenode.top.windows.minutes = 1,5,25
2020-06-07 11:35:57,710 INFO namenode.FSNamesystem: Retry cache on namenode is enabled
2020-06-07 11:35:57,710 INFO namenode.FSNamesystem: Retry cache will use 0.03 of total heap and retry cache entry expiry time is 600000 millis
2020-06-07 11:35:57,712 INFO util.GSet: Computing capacity for map NameNodeRetryCache
2020-06-07 11:35:57,712 INFO util.GSet: VM type       = 64-bit
2020-06-07 11:35:57,712 INFO util.GSet: 0.029999999329447746% max memory 1.9 GB = 611.9 KB
2020-06-07 11:35:57,712 INFO util.GSet: capacity      = 2^16 = 65536 entries
2020-06-07 11:35:57,743 INFO namenode.FSImage: Allocated new BlockPoolId: BP-1242120599-69.87.216.36-1591529757733
2020-06-07 11:35:57,763 INFO common.Storage: Storage directory /home/hadoop/hdfs/namenode has been successfully formatted.
2020-06-07 11:35:57,817 INFO namenode.FSImageFormatProtobuf: Saving image file /home/hadoop/hdfs/namenode/current/fsimage.ckpt_0000000000000000000 using no compression
2020-06-07 11:35:57,972 INFO namenode.FSImageFormatProtobuf: Image file /home/hadoop/hdfs/namenode/current/fsimage.ckpt_0000000000000000000 of size 398 bytes saved in 0 seconds .
2020-06-07 11:35:57,987 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2020-06-07 11:35:58,000 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid=0 when meet shutdown.
2020-06-07 11:35:58,003 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at ubuntu2004/69.87.216.36
************************************************************/

Hadoopクラスターを開始します

まず、次のコマンドでNameNodeとDataNodeを起動します。

start-dfs.sh

次の出力が得られるはずです:

Starting namenodes on [0.0.0.0]
Starting datanodes
Starting secondary namenodes [ubuntu2004]

次に、次のコマンドを実行して、YARNリソースとノードマネージャーを起動します。

start-yarn.sh

次の出力が得られるはずです:

Starting resourcemanager
Starting nodemanagers

これで、次のコマンドでそれらを確認できます。

jps

次の出力が得られるはずです:

5047 NameNode
5850 Jps
5326 SecondaryNameNode
5151 DataNode
アクセスHadoopWebインターフェース

これで、URL http:// your-server-ip:9870を使用してHadoopNameNodeにアクセスできます。次の画面が表示されます。

URL http:// your-server-ip:9864を使用して個々のDataNodeにアクセスすることもできます。次の画面が表示されます。

YARN Resource Managerにアクセスするには、URL http:// your-server-ip:8088を使用します。次の画面が表示されます。

結論

おめでとう!これで、Hadoopが単一ノードに正常にインストールされました。これで、基本的なHDFSコマンドの調査を開始し、完全に分散されたHadoopクラスターを設計できます。ご不明な点がございましたら、お気軽にお問い合わせください。


Ubuntu
  1. Ubuntu18.04にRedisをインストールして構成する方法

  2. Ubuntu18.04にRedmineをインストールして設定する方法

  3. Ubuntu13.10にApacheWebサーバーをインストールして構成する方法

  1. Ubuntu18.04にSambaをインストールして設定する方法

  2. Ubuntu20.04にRedisをインストールして構成する方法

  3. Ubuntu20.04にJenkinsをインストールして構成する方法

  1. Ubuntu16.04にAskbotをインストールして構成する方法

  2. Ubuntu14.04にMongoDBをインストールして構成する方法

  3. Ubuntu16.04にSolr6をインストールして構成する方法