【Pentaho】Pentaho ~ 基本編 ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/10/04/000000
https://dk521123.hatenablog.com/entry/2020/09/10/174223
https://dk521123.hatenablog.com/entry/2020/09/09/000000
https://dk521123.hatenablog.com/entry/2020/09/11/154403
https://dk521123.hatenablog.com/entry/2020/09/12/164214

の続き。

ある程度、どういったことができるのか分かったので、
どういった機能があるのか少しずつ埋めていく

ここでは載せていないが、Webサービスへの接続もできるらしい。
本当に道具が揃ってるいる、、、

目次

【1】Input
 1)CSV/Text/Excel file input ... 各ファイルの読み出し
 2)Table input ... テーブルの読み出し
 3)Data Grid ... 固定値のレコードを生成
 4)Get file names ... 対象パスからのファイル一覧
 5)Get system info ... システム情報(現在日付など)の取得
【2】Output
 1)Text/Microsoft Excel output ... 各ファイルの書き出し
 2)Table output ... テーブルへの書き出し
【3】Transform
 1)Select values ... フィールド名/データタイプの変更など
 2)Sort rows ... 行のソート
 3)Unique rows / Unique rows (HashSet) ... 重複値の排除
【4】Utility
 1)Mail ... メールの送信
 2)Write to log ... ログ出力
【5】Flow
 1)Abort ... 処理中断
 2)Dummy (do nothing) ... 何もしない(デバッグなどで使用)
 3)Filter rows ... 対象データ行の取得
 4)Switch / Case ... Switch-case的な分岐
【6】Scripting
 1)Regex Evaluation ... 正規表現評価
【7】Joins
 1)Merge join ... データのマージ
【8】Job
 1)Set variables ... 値の設定

※ 残りは、以下のサイトなどで補う形で、、、

http://www.pentaho-partner.jp/doc/Pentaho%83f%81%5B%83%5E%93%9D%8D%87%83%86%81%5B%83U%81%5B%83K%83C%83h4.1.pdf
https://qiita.com/ch7821/items/a173318267ba13f208fd
http://technicallyfree.blogspot.com/2013/04/pentaho-data-integration-4-step.html

【1】Input

1)CSV/Text/Excel file input

* 各ファイルの読み込み

関連記事
https://dk521123.hatenablog.com/entry/2020/09/09/000000

2)Table input

* テーブルの読み出し

公式サイト
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Transformation_Step_Reference/Table_Input

3)Data Grid

* 固定値のレコードを生成

簡単な使い方

【Metaタブ】
 => データ定義(変数名、データ型など)を設定

【Dataタブ】
 => Metaタブに定義した項目のデータを入力

※ 実際に使用している動画は以下。

https://www.youtube.com/watch?v=8R4VXMXbgzU
公式サイト
https://wiki.pentaho.com/pages/viewpage.action?pageId=23533997
参考文献
https://qiita.com/ch7821/items/a173318267ba13f208fd

4)Get file names

* 対象パスからのファイル一覧

参考文献
https://wiki.pentaho.com/display/EAI/Get+File+Names
関連記事
https://dk521123.hatenablog.com/entry/2020/09/12/164214

5)Get system info

* 現在日付など、システムで管理されている情報を取得
 + Name : 変数名
 + Type : システムデータ種類(クリックすれば選択できる)

公式サイト
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Transformation_Step_Reference/Get_System_Info
参考文献
https://www.compiere-distribution-lab.net/2013/07/31/pentaho-lab-get-system-info-%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E3%83%87%E3%83%BC%E3%82%BF%E5%8F%96%E5%BE%97-%E3%82%B9%E3%83%86%E3%83%83%E3%83%97/

【2】Output

1)Text/Microsoft Excel output

* 各ファイルの書き出し

関連記事
https://dk521123.hatenablog.com/entry/2020/09/09/000000

2)Table output

* テーブルへの書き出し

関連記事
https://dk521123.hatenablog.com/entry/2020/09/11/154403

【3】Transform

1)Select values

* 以下を行うことができる
 + 使用しないフィールドの削除
 + フィールド長の変更
 + フィールド名の変更
 + データタイプの変更

公式サイト
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Transformation_Step_Reference/Select_Values
参考文献
http://www.pentaho-partner.jp/blog/2010/03/

2)Sort rows

* 行のソート処理

公式サイト
https://help.pentaho.com/Documentation/9.1/Products/Sort_rows

3)Unique rows / Unique rows (HashSet)

* 重複値の排除

公式サイト
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Transformation_Step_Reference/Unique_Rows_HashSet
関連記事
https://dk521123.hatenablog.com/entry/2020/09/12/164214

【4】Utility

1)Mail

* メールの送信

2)Write to log

* ログ出力

【5】Flow

1)Abort

* 処理中断

公式サイト
https://help.pentaho.com/Documentation/9.0/Products/Abort

2)Dummy (do nothing)

* 何もしない(デバッグなどで使用)

公式サイト
https://wiki.pentaho.com/pages/viewpage.action?pageId=8292115
参考文献
http://www.pentaho-partner.jp/blog/2010/04/pdi2.html

3)Filter rows

* 対象データ行の取得

関連記事
https://dk521123.hatenablog.com/entry/2020/09/11/154403

4)Switch / Case

* Switch-case的な分岐

公式サイト
https://help.pentaho.com/Documentation/9.0/Products/Switch-Case
参考文献
http://www.pentaho-partner.jp/blog/2010/04/pdi2.html

【6】Scripting

1)Regex Evaluation

* 正規表現評価

公式サイト
https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Transformation_Step_Reference/Regex_Evaluation
参考文献
http://www.pentaho-partner.jp/blog/2013/02/post-65.html

【7】Joins

1)Merge join

* データのマージ

公式サイト
https://wiki.pentaho.com/display/EAI/Merge+Join
参考文献
https://mp-s.co.jp/news/archives/219
https://qiita.com/otuhs_d/items/84092b1ba3ca5f0ede8f

【8】Job

1)Set variables

* 値の設定

関連記事
https://dk521123.hatenablog.com/entry/2020/09/12/164214

関連記事

Pentaho ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2019/10/04/000000
Pentaho ~ 環境設定編 ~
https://dk521123.hatenablog.com/entry/2020/09/10/174223
Pentaho ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/09/09/000000
Pentaho ~ DBを扱う ~
https://dk521123.hatenablog.com/entry/2020/09/11/154403
Pentaho ~ 簡単なETL処理を行ってみる ~
https://dk521123.hatenablog.com/entry/2020/09/12/164214