【AWS】AWS Glue ~ ジョブパラメータ ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/11/17/231505

の続き。

 Glue がバージョンアップを繰り返して、
ジョブパラメータについても色々なものがでてきたので
ここらで、まとめてみる。
(全部は多すぎるので、Pythonと使用しそうなものに限定する)

目次

【0】ジョブパラメータに関して
 1)公式ドキュメント
 2)一口メモ
 3)使用不可ジョブパラメータ
【1】基本編
 1)--scriptLocation
 2)--TempDir
【2】パス関連
 1)--extra-files
 2)--extra-py-files
【3】enable系
 1)--enable-auto-scaling
 2)--enable-glue-datacatalog
 3)--enable-spark-ui

【0】ジョブパラメータに関して

1)公式ドキュメント

* 以下、参照
 => 機械翻訳がおかしいが。。。

https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html

2)一口メモ

* Glueトリガーから次のJobに対して、Key-Valueの形で、
 ジョブパラメータを渡すことができる
 => これ、結構便利かも。知っていると設計の幅が広がる、、、

3)使用不可ジョブパラメータ

* 以下は、AWS Glue 内部用なので使用不可。
 + --conf
 + --debug
 + --mode
 + --JOB_NAME

【1】基本編

1)--scriptLocation

* スクリプトの場所

指定例

'--scriptLocation': 's3://your-s3-bucket/test/test.py'

2)--TempDir

* ジョブの一時ディレクトリに使用するためのAmazon S3 パスを指定する

指定例

'--TempDir': 's3://your-s3-bucket/temp/'

【2】パス関連

1)--extra-files

* 設定ファイルなどの追加ファイルを指す Amazon S3 パス(フルパス)を指定
* スクリプト実行前に、AWS Glueの作業ディレクトリにコピーされる
* 複数指定する場合は、「,」区切り。

指定例

'--extra-files': 's3://your-s3-bucket/test/test1.yaml,s3://your-s3-bucket/test/test2.yaml'

2)--extra-py-files

*  追加したい Python モジュールを指す Amazon S3 パス(フルパス)を指定
* スクリプト実行前に、AWS Glueの作業ディレクトリにコピーされる
* 複数指定する場合は、「,」区切り。

指定例

'--extra-py-files': 's3://your-s3-bucket/test/test-loggger.py,s3://your-s3-bucket/test/test-lib.py'

【3】enable系

1)--enable-auto-scaling

* true の場合、Auto Scaling とワーカーごとの課金を使用する機能をON

指定例

'--enable-auto-scaling': 'true'

2)--enable-glue-datacatalog

* AWS Glue Data Catalog の、Apache Spark Hive メタストアとしての使用をON
* この機能を有効にするにはキーのみを指定

3)--enable-spark-ui

* true の場合、Spark UI を使用して 
 AWS Glue ETLジョブのモニタリングとデバッグを行う
 => 便利そう、、、

■ 関連記事

AWS Glue ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/10/01/221926
AWS Glue ~ 基本編 / ジョブ ~
https://dk521123.hatenablog.com/entry/2019/11/17/231505
AWS Glue ~ パフォーマンスチューニング ~
https://dk521123.hatenablog.com/entry/2022/12/03/000119
Glue Jobを起動した際にエラー「LANCH ERROR | java.net.URISyntaxException」が発生
https://dk521123.hatenablog.com/entry/2022/11/18/163207