■ はじめに
https://dk521123.hatenablog.com/entry/2019/10/04/000000
https://dk521123.hatenablog.com/entry/2020/09/10/174223
の続き。 pdi-ce-9.0.0.0-423\data-integration\samples 配下には、 サンプルデータがある。 このデータを使って、Hello World的なことを行う。
個人的な感想
Non-Programmingで、データの加工・抽出がある程度できるし 処理の変更も容易かつGUIでデータの流れも分かりやすい。 ビッグデータ以外でも使い道がありそう。 Pentahoが使いやすいかは置いといて、 将来的に、こういったGUIで処理を組み立てるようなシステム構築が 多くなるような気がする。
今回学んだこと
1)Transformation / Jobについて 2)以下の操作 + spoon + pan / kitchen ... コマンドラインからの実行 3)以下の使い方 + CSV File Input ... CSVファイルの読み込み + Microsoft Excel output ... Excelファイルへの書き出し
目次
【1】Transformation / Job 【2】サンプル 【3】コマンドラインからの実行 ~ pan / kitchen ~
【1】Transformation / Job
* 以下の関連記事を参照のこと
https://dk521123.hatenablog.com/entry/2019/10/04/000000
* Jobは、例えば、Transformation-Aが、 成功した場合、Transformation-B1、 失敗した場合、Transformation-B2 を実行するといった処理を分岐したりできる
【2】サンプル
* Hello worldとして、CSV => Excel に変換し、出力する。
使用するサンプルデータ
C:\work\pentaho\pdi-ce-9.0.0.0-423\data-integration\samples\transformations\files\customers-100-with-errors.txt
customers-100-with-errors.txt (一部抜粋)
id;name;firstname;zip;city;birthdate;street;housenr;stateCode;state 1;jwcdf-name;fsj-firstname; 13520;oem-city;1954/02/07;amrb-street; 145;AK;ALASKA 2;flhxu-name;tum-firstname; 17520;buo-city;1966/04/24;wfyz-street; 96;GA;GEORGIA 3;xthfg-name;gfe-firstname; 12560;vtz-city;01/01/1996;doxx-street; 46;NJ;NEW JERSEY 4;ulzrz-name;bnl-firstname; 11620;prz-city;1966/08/02;bxqn-street; 104;NY;NEW YORK 5;oxhyr-name;onx-firstname; 15180;bpn-city;1970/11/14;pksn-street; 133;IN;INDIANA ・・・略・・・
手順
1)入力の設定
[1] [File]-[New]-[Translation] を選択 (又は「Ctrl + Nキー」押下) [2] 左ペインの [Design]-[Input]-[CSV File Input] を選択 [3] 「CSV file input」アイコンをダブルクリックし、以下を入力 ~~~~~ File name : <インストール場所>\data-integration\samples\transformations\files\customers-100-with-errors.txt Delimiter : 「;」 ~~~~~ [4] 「Get Fields」ボタン押下し、以下を行う ~~~~~ Trim type : both ~~~~~ [5] 「Preview」ボタン押下し、データを確認し、「OK」ボタン押下
2)出力の設定
[1] 左ペインの [Design]-[Output]-[Microsoft Excel output] を選択 [2] 「Microsoft Excel output」アイコンをダブルクリックし、以下を入力 ~~~~~ File name : <任意の場所>\output_file.xls ~~~~~ [3] 「OK」ボタン押下
3)関連付けおよび動作確認
[1] 「CSV file input」アイコンを選択し、 数秒待ち、右から2番目のアイコンを選択し 「Microsoft Excel output」アイコンにつなげ、 「Main out of step」を選択 [2] [File]-[Save]などで任意の名前で保存 (保存しないと実行できない) [3] 「再生(Run)」アイコンを押下し、実行 ⇒ 無事成功していれば、「2)出力の設定」の [2] の場所に Excelファイルが存在しているはず。
【3】コマンドラインからの実行 ~ pan / kitchen ~
* コマンドラインからの実行には、以下のように分かれる。 ~~~~~~~~~~~~~ + Transformationの場合、pan.bat (Linux なら、***.sh) + Jobの場合、kitchen.bat (Linux なら、***.sh) ~~~~~~~~~~~~~
https://qiita.com/mik/items/83311c0d0c416d6aeb67
http://www.pentaho-partner.jp/blog/2015/08/kitchenpan.html
1)pan
例
pan.bat /file:C:\work\pentaho\pentaho-work\sample-etl.ktr /level;Debug /logfile:hello.log
2)kitchen
例
kitchen.bat /file:C:\work\pentaho\pentaho-work\main.kjb /level;Debug /logfile:hello.log
参考文献
今後役に立ちそうなサイト
http://www.pentaho-partner.jp/doc/Pentaho%83f%81%5B%83%5E%93%9D%8D%87%83%86%81%5B%83U%81%5B%83K%83C%83h4.1.pdf
関連記事
Pentaho ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2019/10/04/000000
Pentaho ~ 環境設定編 ~
https://dk521123.hatenablog.com/entry/2020/09/10/174223
Pentaho ~ 基本編 ~
https://dk521123.hatenablog.com/entry/2020/09/13/000209
Pentaho ~ DBを扱う ~
https://dk521123.hatenablog.com/entry/2020/09/11/154403
Pentaho ~ 簡単なETL処理を行ってみる ~
https://dk521123.hatenablog.com/entry/2020/09/12/164214