■ はじめに
https://dk521123.hatenablog.com/entry/2019/11/17/231505
の続き。久しぶりに、AWS Glueネタ。 今日、みたら、Python shell が、 Python 3.9 が使えるようになっていたので、メモ。 => AWS公式でもアナウンスされている。
(正直、もうでなくて、 Python shell jobは廃れていくのかなっと思っていたが、、、)
目次
【1】Python shell job 【2】使用可能なPython バージョン 【3】Python3.9 での機能 1)サポートされているライブラリ 2)制限事項 【4】使用料金
【1】Python shell job
* (Spark機能とかはない)Python スクリプトをシェルとして実行 => 以下の公式サイトを一読するといいかも。
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/add-job-python.html
【2】使用可能なPython バージョン
* Python 3.6 (デフォルト) * Python 3.9 << !NEW! => いつの間にか Python shell jobに関しては、 GlueX.0などのバージョンの概念がなくなっている、、、
【3】Python3.9 での機能
* GUI で、Python 3.9を選択すると以下の項目が活性化する
[1] Load common analytics libraries (recommended)
* 共通分析ライブラリを読み込む (推奨) (ON/OFF)
[2] Automatically scale the number of workers
* ワーカー数の自動スケールを行うか (ON/OFF)
[3] Generate job insights
* ジョブ実行インサイトを生成するかどうか (ON/OFF) => ジョブ実行インサイトについては、以下の公式サイトを参照。
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/monitor-job-insights.html
1)サポートされているライブラリ
* 以下の公式サイトの表を参照
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/add-job-python.html#python-shell-supported-library
個人的に気になった点
* Python3.9で「PyGreSQL」がサポートされなくていた、、、 => PostgreSQLにアクセスしたい場合は、redshift-connectorでやれってこと?
2)制限事項
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/add-job-python.html#python-shell-limitations
より抜粋 ~~~~~~ .egg ファイルの追加は、Python 3.9 ではサポートされていません。 ~~~~~~
【4】使用料金
* 単純比較だと、AWS Glue v3.0 の方が安いみたい (DPU 時間あたりなので、Worker数によっても変わると思うが)
https://aws.amazon.com/jp/glue/pricing/
* Apache Spark または Spark ストリーミングジョブごとに、 DPU 時間あたり 0.44USD が1 秒単位で課金され、最小 1 分 (Glue バージョン 2.0 以降) または最小 10 分 (Glue バージョン 0.9/1.0) * 柔軟な実行を伴う Apache Spark ごとに、 DPU 時間あたり 0.29USD が1 秒単位で課金され、最小 1 分 (Glue バージョン 3.0 以降) * Python Shell ジョブごとに、 DPU 時間あたり 0.44USD が 1 秒単位で課金され、最小 1 分 << ★注目
関連記事
AWS Glue ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/10/01/221926
AWS Glue ~ 基本編 / ジョブ ~
https://dk521123.hatenablog.com/entry/2019/11/17/231505