【Pentaho】Pentaho ~ 入門編 ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/10/04/000000
https://dk521123.hatenablog.com/entry/2020/09/10/174223

の続き。

pdi-ce-9.0.0.0-423\data-integration\samples 配下には、
サンプルデータがある。
このデータを使って、Hello World的なことを行う。

個人的な感想

Non-Programmingで、データの加工・抽出がある程度できるし
処理の変更も容易かつGUIでデータの流れも分かりやすい。
ビッグデータ以外でも使い道がありそう。

 Pentahoが使いやすいかは置いといて、
将来的に、こういったGUIで処理を組み立てるようなシステム構築が
多くなるような気がする。

今回学んだこと

1)Transformation / Jobについて
2)以下の操作
 + spoon
 + pan / kitchen ... コマンドラインからの実行
3)以下の使い方
 + CSV File Input ... CSVファイルの読み込み
 + Microsoft Excel output ... Excelファイルへの書き出し

目次

【1】Transformation / Job
【2】サンプル
【3】コマンドラインからの実行 ~ pan / kitchen ~

【1】Transformation / Job

* 以下の関連記事を参照のこと

https://dk521123.hatenablog.com/entry/2019/10/04/000000

* Jobは、例えば、Transformation-Aが、
 成功した場合、Transformation-B1、
 失敗した場合、Transformation-B2
 を実行するといった処理を分岐したりできる

【2】サンプル

* Hello worldとして、CSV => Excel に変換し、出力する。

使用するサンプルデータ

C:\work\pentaho\pdi-ce-9.0.0.0-423\data-integration\samples\transformations\files\customers-100-with-errors.txt

customers-100-with-errors.txt (一部抜粋)

id;name;firstname;zip;city;birthdate;street;housenr;stateCode;state
 1;jwcdf-name;fsj-firstname; 13520;oem-city;1954/02/07;amrb-street; 145;AK;ALASKA
 2;flhxu-name;tum-firstname; 17520;buo-city;1966/04/24;wfyz-street; 96;GA;GEORGIA
 3;xthfg-name;gfe-firstname; 12560;vtz-city;01/01/1996;doxx-street; 46;NJ;NEW JERSEY
 4;ulzrz-name;bnl-firstname; 11620;prz-city;1966/08/02;bxqn-street; 104;NY;NEW YORK
 5;oxhyr-name;onx-firstname; 15180;bpn-city;1970/11/14;pksn-street; 133;IN;INDIANA
・・・略・・・

手順

1)入力の設定

[1] [File]-[New]-[Translation] を選択 (又は「Ctrl + Nキー」押下)

[2] 左ペインの [Design]-[Input]-[CSV File Input] を選択

[3]  「CSV file input」アイコンをダブルクリックし、以下を入力
~~~~~
 File name : <インストール場所>\data-integration\samples\transformations\files\customers-100-with-errors.txt
 Delimiter : 「;」
~~~~~

[4] 「Get  Fields」ボタン押下し、以下を行う
~~~~~ 
 Trim type : both
~~~~~

[5] 「Preview」ボタン押下し、データを確認し、「OK」ボタン押下

2)出力の設定

[1] 左ペインの [Design]-[Output]-[Microsoft Excel output] を選択

[2]  「Microsoft Excel output」アイコンをダブルクリックし、以下を入力
~~~~~
 File name : <任意の場所>\output_file.xls
~~~~~

[3] 「OK」ボタン押下

3)関連付けおよび動作確認

[1]  「CSV file input」アイコンを選択し、
  数秒待ち、右から2番目のアイコンを選択し
  「Microsoft Excel output」アイコンにつなげ、
  「Main out of step」を選択

[2] [File]-[Save]などで任意の名前で保存
(保存しないと実行できない)

[3] 「再生(Run)」アイコンを押下し、実行
 ⇒ 無事成功していれば、「2)出力の設定」の [2] の場所に
  Excelファイルが存在しているはず。

【3】コマンドラインからの実行 ~ pan / kitchen ~

* コマンドラインからの実行には、以下のように分かれる。
 ~~~~~~~~~~~~~
 + Transformationの場合、pan.bat (Linux なら、***.sh)
 + Jobの場合、kitchen.bat (Linux なら、***.sh)
 ~~~~~~~~~~~~~

https://qiita.com/mik/items/83311c0d0c416d6aeb67
http://www.pentaho-partner.jp/blog/2015/08/kitchenpan.html

1)pan

pan.bat /file:C:\work\pentaho\pentaho-work\sample-etl.ktr /level;Debug /logfile:hello.log 

2)kitchen

kitchen.bat /file:C:\work\pentaho\pentaho-work\main.kjb /level;Debug /logfile:hello.log 

参考文献

今後役に立ちそうなサイト
http://www.pentaho-partner.jp/doc/Pentaho%83f%81%5B%83%5E%93%9D%8D%87%83%86%81%5B%83U%81%5B%83K%83C%83h4.1.pdf

関連記事

Pentaho ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2019/10/04/000000
Pentaho ~ 環境設定編 ~
https://dk521123.hatenablog.com/entry/2020/09/10/174223
Pentaho ~ 基本編 ~
https://dk521123.hatenablog.com/entry/2020/09/13/000209
Pentaho ~ DBを扱う ~
https://dk521123.hatenablog.com/entry/2020/09/11/154403
Pentaho ~ 簡単なETL処理を行ってみる ~
https://dk521123.hatenablog.com/entry/2020/09/12/164214