【トラブル】【AWS】AWS Glue のトラブル ~ job編 [4] ~

■ はじめに

https://dk521123.hatenablog.com/entry/2019/10/25/232155
https://dk521123.hatenablog.com/entry/2020/10/12/152659
https://dk521123.hatenablog.com/entry/2021/02/16/145848

の続き。

今回も、AWS Glue の job で発生したトラブルについて扱う。

目次

【1】エラー「Command failed with exit code 10」が発生する
【2】エラー「no identity-based policy allows the iam:PassRole action」が発生
【3】AWS Glue Job で Timeout が発生する
【4】AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する

【1】エラー「Command failed with exit code 10」が発生する

大きいサイズのファイルを処理するために、
Glue Job で実行したところ、
以下の「エラー内容」が表示されてしまった。

エラー内容

AWS Glue コンソール上のエラー

Command failed with exit code 10

CloudWatchのエラー

ERROR [main] glue.ProcessLauncher (Logging.scala:logError(10)):
Unknown error from Python: Error Traceback is not available.

原因

https://wannabe-data-engineer.net/glue-job_command-failed-with-exit-code-10/

より抜粋
~~~~~~~~~
Glue Jobワーカー1つのメモリ上に
乗り切らないデータを処理している可能性があります。
~~~~~~~~~

解決案

https://dk521123.hatenablog.com/entry/2021/04/22/131849

と対策がほど同じだが、以下の案が考えられる。
~~~~~~~~~
案1)原因となる箇所を見直して修正 ... ※1
案2)ファイルを物理的に分割してから実行

※1
『原因となる箇所』については、
細目にログを張っていたので原因となるコードを特定できた。
~~~~~~~~~
=> 今回は、「案1)原因となる箇所を見直して修正」で対処

補足:「案2)ファイルを物理的に分割してから実行」について

ファイルを物理的に分割する方法については、
以下の関連記事の「【2】ファイル分割して出力する」を参照のこと

PySpark ~ パーティション / あれこれ編 ~
https://dk521123.hatenablog.com/entry/2021/05/13/110811

【2】エラー「no identity-based policy allows the iam:PassRole action」が発生

* 以下の関連記事を参照のこと

エラー「no identity-based policy allows the iam:PassRole action」が発生
https://dk521123.hatenablog.com/entry/2022/05/17/140400

【3】AWS Glue Job で Timeout が発生する

* 以下の関連記事を参照のこと

AWS Glue Job で DB timeout が発生する
https://dk521123.hatenablog.com/entry/2021/08/30/104237
AWS Glue Job で ConnectionTimeoutError が発生する
https://dk521123.hatenablog.com/entry/2022/03/28/162514

【4】AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する

* 以下の関連記事を参照のこと

AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する
https://dk521123.hatenablog.com/entry/2021/05/17/120443

関連記事

AWS Glue ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2019/10/01/221926
AWS Glue のトラブル ~ job編 - [1] ~
https://dk521123.hatenablog.com/entry/2019/10/25/232155
AWS Glue のトラブル ~ job編 - [2] ~
https://dk521123.hatenablog.com/entry/2020/10/12/152659
AWS Glue のトラブル ~ job編 - [3] ~
https://dk521123.hatenablog.com/entry/2021/02/16/145848
boto3 AWS Glue API のトラブル ~ trigger全般 編 ~
https://dk521123.hatenablog.com/entry/2020/10/23/110821
boto3 AWS Glue API のトラブル ~ scheduled trigger編 ~
https://dk521123.hatenablog.com/entry/2020/01/16/205331
boto3 AWS Glue API のトラブル ~ job/crawler編 ~
https://dk521123.hatenablog.com/entry/2020/02/05/223307
AWS Glue のトラブル ~ crawler編 ~
https://dk521123.hatenablog.com/entry/2020/05/07/144132
AWS Glue Job で DB timeout が発生する
https://dk521123.hatenablog.com/entry/2021/08/30/104237
AWS Glue Job で ConnectionTimeoutError が発生する
https://dk521123.hatenablog.com/entry/2022/03/28/162514
AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する
https://dk521123.hatenablog.com/entry/2021/05/17/120443
Glue Jobを起動した際にエラー「LANCH ERROR | java.net.URISyntaxException」が発生
https://dk521123.hatenablog.com/entry/2022/11/18/163207
エラー「no identity-based policy allows the iam:PassRole action」が発生
https://dk521123.hatenablog.com/entry/2022/05/17/140400
PySpark でエラー「Total size ... is bigger than spark.driver.maxResultSize」が発生する
https://dk521123.hatenablog.com/entry/2021/04/22/131849
PySpark ~ パーティション / あれこれ編 ~
https://dk521123.hatenablog.com/entry/2021/05/13/110811