Pentahoデータ統合ツールは、データ分析におけるデータ統合に使用されるビジネス分析ツールです。ビジネスインテリジェンス(BI)は、主にデータ統合、データ分析、およびデータ視覚化で実行されます。データは入力ソースから提供され、結合、マージ、操作などのさまざまな操作のために多くの部分に分割されます。データ統合は、データを収集、接続、および処理するプロセスです。
データはさまざまなタイプで使用できます。生データ、ライブデータ、データベースからのデータ、および任意のデータソースをデータ合成に使用できます。データベースはStructuredQueryLanguage(SQL)で実行され、Pentahoのデータ統合にはSQLに関する十分な知識も必要です。
Pentahoデータ統合ツール(PDI)
オープンソースのデータ統合ツールは、ビジネスインテリジェンス(BI)およびデータ視覚化プロセスで利用できます。 Clover ETL、Pentaho、Karma、Pimcore、Skool、Myddleware、Talend Open Studioなどのオープンソースのデータ統合ツールがいくつかあります。 。その中で、 PDI 最も使用され、ユーザーフレンドリーなデータ統合ツールです。スマートでバランスの取れたグラフィカルユーザーインターフェイス(GUI)を備えています。 PDIは主にデータ処理に使用され、Hadoopファイルシステム(HDFS)でも使用できます。
オンライン分析処理(OLAP)とデータの視覚化では、データを慎重に処理し、必要に応じて操作することが非常に重要です。この種の作業では、Pentahoデータ統合はほぼすべてのオペレーティングシステムで実行できる便利なツールです。
今日は、Pentahoデータ統合ツールをUbuntuに正しくインストールする方法を見ていきます。共通のプラットフォームとしてUbuntuを使用していますが、Kali、Mint、Red Hat、Lubuntuなどの他のLinuxディストリビューションもPentahoと互換性があります。
Pentahoデータ統合ツールのインストール
Pentahoデータ統合ツールには1.8バージョンのJavaが必要です。システム内で他のバージョンのJavaが実行されている場合は、それらをアンインストールしてjava8を再インストールする必要があります。デフォルトでjava8がインストールされていることを確認する必要があります。
ステップ1:Javaバージョンの確認
マシンの現在のJavaバージョンを確認するには、ターミナルに移動して、以下に示すターミナルコマンドを入力します。すでにJavaがインストールされている場合は、現在のJavaバージョンが表示されます。
java -version---
マシンにJavaがインストールされていない場合は、ターミナルからJavaをインストールする方法の基本的なコマンドラインが表示されます。
ステップ2:Java8のインストールと構成
必要なバージョンのJava(1.8)をお持ちの場合は、問題ありません。ただし、必要なバージョンのJavaがない場合は、ターミナルのコマンドラインに従ってJava1.8をインストールしてください。システムに上位バージョンのJavaがインストールされている場合は、最初にそれを削除する必要があります。これを行うには、端末に次のコマンドラインを入力します。
sudo apt remove openjdk-11-jre-headless openjdk-11-jre openjdk-11-jdk-headless openjdk-11-jdk
ここにjava1.8をインストールするには、ターミナルコマンドラインを使用します。
sudo apt install openjdk-8-jdk
Java 1.8をインストールしたら、それをJavaのデフォルトバージョンにします。そのためには、ターミナルのコマンドラインに従ってください。
sudo update-alternatives --config java
sudo apt install default-jre
ステップ3:Pentahoデータ統合ツールのダウンロード
Javaをインストールして構成したら、Pentaho Data Integration(PDI)ツールをダウンロードする準備が整います。ダウンロードリンクは以下のとおりです。ほぼ1.5Gbの圧縮ファイルです。
Pentahoデータ統合ツールのダウンロード
ダウンロードが完了したら、圧縮ファイルを解凍します。次に、PDIのファイルフォルダが次の図のようになります。
ここで、PDIフォルダー内で、スプーンを見つける必要があります。 PDIを開くために実行されるツール。さて、スプーンツールについて議論する時が来ました。 Javaの助けを借りて、スプーンはマシン内でPentahoデータ統合ツールを実行します。
スプーンツールを実行するには、Pentahoデータ統合フォルダー内に移動し、フォルダー内の任意の場所を右クリックして、「ターミナルで開く」を選択します。 。ターミナルを開くと、次のようになります。
次に、「 shspoon.sh」と入力します Enterボタンを押します。どうぞ! Pentahoデータ統合ツールがオープンしました!
システムでJavaが実行され、同時にPDIが開いていることを示すポップアップウィンドウが画面に表示されます。ディスプレイは下の図のようになります。
ステップ4:初めて使用するPentahoデータ統合ツールのセットアップ
ここで、Pentahoデータ統合のマシンへのインストールはほぼ完了です。これで、使用する準備が整いました。 Pentahoのデータ統合により、データベースの接続、CSVファイルのアップロード、SQL操作の実行などを行うことができます。今日は、Pentahoデータ統合から電子メールを送信する方法を紹介します。
ほとんどの場合、Pentahoのデータ統合により、現在の作業の進捗状況を報告する目的で電子メールを送信できます。 PDIでは、Pentahoデータ統合のクライアント側に電子メールでファイルを添付することもできます。 Pentahoデータ統合ツールからメールを送信するには、使用しているメールサービスから許可にアクセスする必要があります。
たとえば、Gmailを使用している場合は、Gmailから許可を得る必要があります。そのためには、最初にGmailにログインしてから、セキュリティ設定でログインする必要があります。そこでは、「安全性の低いアプリへのアクセス」へのアクセスを強化する必要があります。
それでは、Pentahoデータ統合ツールに戻りましょう。 Pentahoのデータ統合ウィンドウには、次の2つの主要なオプションがあります。
- 変換
- 仕事
[ジョブ]をクリックすると、[ジョブ]の下に[メール]オプションが表示されます。次に、下の図に示すように、左側のウィンドウにメール機能をドラッグアンドドロップする必要があります。
その後、上部のPentahoデータ統合に、検索バーがあり、「Start」と入力すると、「Start」という名前のオブジェクトが見つかります。左側の空白のウィンドウにもドラッグアンドドロップする必要があります。同じプロセスで、同じウィンドウに[成功]ボタンをドラッグアンドドロップする必要があります。ウィンドウ内のこれら3つのボタンの配置は次のようになります
開始>メール>成功
次に、Pentahoデータ統合ツール内で3つのボタンを相互に接続します。そのためには、キーボードから「Shift」ボタンを押したまま、次のオブジェクトと結合する最初のオブジェクトをクリックする必要があります。Shiftキーを押しながらマウスカーソルをドラッグすると、ボタンが相互接続されます。この後、「開始」機能の設定を行う必要があります。 「開始」機能をダブルクリックすると、設定オプションが表示されるダイアログボックスが開きます。
Pentahoデータ統合でのメール送信の主な設定ガイドを例とともに以下に示します。
[アドレス]列の設定は次のようになります:
宛先アドレス: このアドレスは、Pentahoデータ統合からメールを送信するメールアドレスになります。複数の電子メール受信者がいる場合は、2つの電子メールの間にコンマ(、)を使用するだけです。必要に応じて、CcとBccを使用することもできます。
送信者名: 「安全性の低いアプリへのアクセス」の許可を得ているのはあなたのメールアドレスです
[サーバー]列の設定は次のようになります:
SMTPサーバー :smtp.gmail.com(Gmailサービス用)
ポート: 465
認証にチェックマークを付けます 、認証設定は次のようになります:
認証ユーザー: 「安全性の低いアプリへのアクセス」の権限を持つのはあなたのメールアドレスです。 メールをPentahoデータ統合内に配置します。
認証パスワード: 認証メールのパスワード。次に、「安全な認証を使用する」にチェックマークを付けます。
安全な認証タイプ:SSL
[メールメッセージ]列で、設定は次のようになります:
メッセージに日付を含めますか? : チェックマーク
メール本文でHTML形式を使用する: チェックマーク
エンコーディング: UTF-8
件名: メールの件名
コメント: メールの本文。
ここでこの設定を完了すると、「添付ファイル」という名前の列が表示されます。メールにファイルを添付する場合は、この列も設定する必要があります。 Pentahoのデータ統合により、ユーザーはメールでファイルを添付できます。
このPDIファイルをマシンに保存すると、ファイル拡張子は file_name.ktr
になります。 ここでは、 .ktr Pentahoケトルのケトルファイル拡張子です。ファイルが保存され、すべてが完了したら、[スタート]ボタンをクリックします。これにより、メールジョブが初期化されます。 PDI設定を確認し、受信者にメールを送信します。
すべてが正常に完了すると、下の図に示すように、成功したメッセージが表示されます。何か問題が発生した場合は、画面にエラーメッセージが表示されます。これらのエラーを修正した後、再試行すると成功につながります。
仕上げタッチ
これで、この投稿の最終段階になります。この投稿では、PDIの基本について説明しました。 Javaエラーを回避するプロセスと、Javaバージョンをデフォルトとして設定する方法を見てきました。この投稿の途中で、PDIのメールボタンの設定について説明しました。そして最後に、メールベンダーの設定とユーザーエンドの設定について説明しました。
Pentahoデータ統合は、データ統合のためのビジネスインテリジェンス(BI)ツールであり、クライアントに電子メールを送信するという特別な機能を備えています。データ分析のためのより多くの機能があります。データ統合ツールについて他の人と共有したり、この投稿に関連して質問したりする場合は、下のコメントセクションで質問してください。