この記事では、Ubuntu 20.04 LTS に Hadoop をインストールして構成するために必要な手順について説明しました。このチュートリアルを続行する前に、sudo
を持つユーザーとしてログインしていることを確認してください 特権。このチュートリアルのすべてのコマンドは、root 以外のユーザーとして実行する必要があります。
Apache Hadoop ソフトウェア ライブラリは、単純な開発モデルを使用して、コンピューターのクラスター間で大規模なデータ セットを分散処理できるようにするフレームワークです。単一のサーバーから数千台のマシンにレベルアップするように設計されており、それぞれがローカルの計算とストレージを提供します。高可用性を実現するためにハードウェアに依存するのではなく、コレクション自体がアプリケーション コーティングで障害を検出して処理するように設計されているため、それぞれが影響を受けやすいコンピューター システムのクラスターの最上位で高可用性サービスを提供します。
Ubuntu 20.04 に Hadoop をインストールする
ステップ 1. まず、Ubuntu サーバーにパッケージのインストールを開始する前に、すべてのシステム パッケージが更新されていることを確認することを常にお勧めします。
sudo apt update sudo apt upgrade
ステップ 2. Java をインストールします。
デフォルトの apt リポジトリから OpenJDK をインストールできます:
sudo apt install default-jdk default-jre
Ubuntu 20.04 に Java を正常にインストールしたら、Java コマンド ラインでバージョンを確認します。
java -version
ステップ 3. Hadoop ユーザーを作成します。
次のコマンドを実行して、Hadoop という名前の新しいユーザーを作成します:
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
次に、次のコマンドを実行して公開鍵と秘密鍵のペアを生成します:
ssh-keygen -t rsa
次に、id_rsa.pub
から生成された公開鍵を追加します authorized_keys
まで 許可を設定します:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
追加されたキーを使用して ssh できることを確認します:
ssh localhost
ステップ 4. Ubuntu システムに Hadoop をインストールします。
公式の Apache Hadoop プロジェクト ページに移動し、実装する Hadoop のバージョンを選択します。
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
次に、Ubuntu システムで Hadoop および Java 環境変数を構成する必要があります。
nano ~/.bashrc
次の行を追加します:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
完了したら、環境変数を有効にします:
source ~/.bashrc
次に、Hadoop 環境変数ファイルを開きます:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
ステップ 5. Hadoop を構成します。
次に namenode
を作成します と datanode
Hadoop ホーム ディレクトリ内のディレクトリ:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
次に、core-site.xml
を編集します ファイルを開き、システムのホスト名で更新します:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
次の行を変更します:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
次に、hdfs-site.xml
を編集します ファイル:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
次の行を変更します:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
次に、mapred-site.xml
を編集します ファイル:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
次の変更を行います:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
一度、yarn-site.xml
を編集します ファイル:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
次のファイル変更を行います:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
ステップ 6. Hadoop クラスターを開始します。
次のコマンドを実行して、Hadoop Namenode をフォーマットします:
hdfs namenode -format start-dfs.sh
次に、次のコマンドを使用して YARN サービスを開始します:
start-yarn.sh
この簡単なコマンドを入力して、すべてのデーモンがアクティブで Java プロセスとして実行されているかどうかを確認します:
jps
ステップ 7. ファイアウォールを構成します。
次のコマンドを実行して、ファイアウォールを通過する Hadoop 接続を許可します:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
ステップ 8. Hadoop へのアクセス。
好みのブラウザを使用して、ローカルホストの URL または IP に移動します。デフォルトのポート番号 9870 を使用すると、Hadoop NameNode UI にアクセスできます。
http://your-ip-address:9870
Ubuntu 20.04 LTS Focal Fossa に Hadoop をインストールするために必要なことはこれだけです。この簡単なヒントがお役に立てば幸いです。 Apache Hadoop の詳細については、公式ナレッジ ベースを参照してください。ご質問やご提案がありましたら、お気軽にコメントを残してください。