■ はじめに
https://dk521123.hatenablog.com/entry/2019/11/17/231505
の続き。 Glue がバージョンアップを繰り返して、 ジョブパラメータについても色々なものがでてきたので ここらで、まとめてみる。 (全部は多すぎるので、Pythonと使用しそうなものに限定する)
目次
【0】ジョブパラメータに関して 1)公式ドキュメント 2)一口メモ 3)使用不可ジョブパラメータ 【1】基本編 1)--scriptLocation 2)--TempDir 【2】パス関連 1)--extra-files 2)--extra-py-files 【3】enable系 1)--enable-auto-scaling 2)--enable-glue-datacatalog 3)--enable-spark-ui
【0】ジョブパラメータに関して
1)公式ドキュメント
* 以下、参照 => 機械翻訳がおかしいが。。。
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html
2)一口メモ
* Glueトリガーから次のJobに対して、Key-Valueの形で、 ジョブパラメータを渡すことができる => これ、結構便利かも。知っていると設計の幅が広がる、、、
3)使用不可ジョブパラメータ
* 以下は、AWS Glue 内部用なので使用不可。 + --conf + --debug + --mode + --JOB_NAME
【1】基本編
1)--scriptLocation
* スクリプトの場所
指定例
'--scriptLocation': 's3://your-s3-bucket/test/test.py'
2)--TempDir
* ジョブの一時ディレクトリに使用するためのAmazon S3 パスを指定する
指定例
'--TempDir': 's3://your-s3-bucket/temp/'
【2】パス関連
1)--extra-files
* 設定ファイルなどの追加ファイルを指す Amazon S3 パス(フルパス)を指定 * スクリプト実行前に、AWS Glueの作業ディレクトリにコピーされる * 複数指定する場合は、「,」区切り。
指定例
'--extra-files': 's3://your-s3-bucket/test/test1.yaml,s3://your-s3-bucket/test/test2.yaml'
2)--extra-py-files
* 追加したい Python モジュールを指す Amazon S3 パス(フルパス)を指定 * スクリプト実行前に、AWS Glueの作業ディレクトリにコピーされる * 複数指定する場合は、「,」区切り。
指定例
'--extra-py-files': 's3://your-s3-bucket/test/test-loggger.py,s3://your-s3-bucket/test/test-lib.py'
【3】enable系
1)--enable-auto-scaling
* true の場合、Auto Scaling とワーカーごとの課金を使用する機能をON
指定例
'--enable-auto-scaling': 'true'
2)--enable-glue-datacatalog
* AWS Glue Data Catalog の、Apache Spark Hive メタストアとしての使用をON * この機能を有効にするにはキーのみを指定
3)--enable-spark-ui
* true の場合、Spark UI を使用して AWS Glue ETLジョブのモニタリングとデバッグを行う => 便利そう、、、
■ 関連記事
AWS Glue ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/10/01/221926
AWS Glue ~ 基本編 / ジョブ ~
https://dk521123.hatenablog.com/entry/2019/11/17/231505
AWS Glue ~ パフォーマンスチューニング ~
https://dk521123.hatenablog.com/entry/2022/12/03/000119
Glue Jobを起動した際にエラー「LANCH ERROR | java.net.URISyntaxException」が発生
https://dk521123.hatenablog.com/entry/2022/11/18/163207