AWS

【トラブル】AWS Glue上で saveAsTextFile() を使ったら エラー「DirectOutputCommitter not found」が発生する

■ はじめに AWS Glue 上で RDD.saveAsTextFile() を使ったら エラー「DirectOutputCommitter not found」が発生したので その際のトラブルシュートをメモする。 目次 【1】エラー内容 【2】発生したコード(一部) 【3】解決案 案1:DirectFileOutputCom…

【トラブル】AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/15/130604 を調査している際に、以下「参考サイト」で 『GlueのSparkバージョンが2.3.0になれば』って記載されていた。 で、以下のAWS Glue の公式サイト https://docs.aws.amazon.com/ja_jp/glue…

【AWS】Glue Job から パーティションを更新することを考える

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/14/095125 の続き。 Glue Job からパーティション更新を行うことを考える。 目次 ■ Job からパーティション更新実装案 ■ 案1)GlueContext クラスを駆使して実装する 方法 1:write_dynamic_fram…

【AWS】Glue からクローリングして外部テーブルを作成する

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/01/003455 の続き。 今回は、Glue で作成したファイルを外部テーブルにする際に 得た知識・ノウハウをメモしておく。 軽く書くつもりが、結構なボリュームになってしまった、、、 目次 【1】Glue…

【AWS】Glue から DataCatalogテーブル に対して Spark SQLを実行する

AWS

■ はじめに Glue から DataCatalogテーブル に対して Spark SQLを実行した際に、いくつか注意点があるので メモしておく 目次 【1】使用上の注意 1)Glue Job で Glue DataCatalog を有効にする 2)「select * from [DB].[Table] ...」ではなく「use [DB]…

【トラブル】【AWS】AWS Glue のトラブル ~ job編 [4] ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 https://dk521123.hatenablog.com/entry/2020/10/12/152659 https://dk521123.hatenablog.com/entry/2021/02/16/145848 の続き。 今回も、AWS Glue の job で発生したトラブルについて…

【AWS】AWS Data Wrangler ~ 入門編 ~

AWS

■ はじめに AWS Data Wrangler ってのがあるようなので調べてみた。 目次 【1】AWS Data Wrangler 0)公式ドキュメント 1)AWS Data Wranglerとは? 【2】環境設定 1)pip / conda 2)AWS Glue 3)その他AWSサービス 【1】AWS Data Wrangler 0)公…

【AWS】AWS Glue ~ CloudWatch Metrics ~

AWS

■ はじめに AWS Glue の CloudWatch Metrics(メトリクス) について、 徐々にメモする。 目次 【1】公式ドキュメント 【2】関連用語 1)ステージ(Stages) 2)タスク(Tasks) 3)ドライバ(Driver) 4)エグゼキュタ(Executors) 【3】メトリクスの…

【AWS】AWS Glue ~ Boto3 / 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 の続き。長くなったので、分冊。 今回は、boto3 API を使って、 PythonでGlueのコンポーネント(Workflow/Job/Trigger ※)を デプロイする簡単なサンプルの実装および 環境周りなどの注…

【AWS】AWS Glue ~ Boto3 / クローラ編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 https://dk521123.hatenablog.com/entry/2021/04/17/001930 の続き。 boto3 を使ったクローラ作成時に結構エラーが出たので、 備忘録的にメモしておく。 目次 【1】各設定値について …

【トラブル】【AWS】AWS Glue のトラブル ~ job編 - [3] ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 https://dk521123.hatenablog.com/entry/2020/10/12/152659 の続き。 新しくAWS Glue を作業していて、新たにトラブルシューティングを行ったのでメモ。 後、過去記事を分冊して整理し…

【AWS】Amazon VPC ~ 入門編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/08/105415 の続き。 Amazon VPC (Virtual Private Cloud) に関して コツコツまとめてきたが肥大になって見にくくなったので 分冊する。 目次 【1】VPC で知っておくべき事項 1)使用できないIP…

【AWS】LocalStack ~ awscli-local ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/14/010524 https://dk521123.hatenablog.com/entry/2019/12/16/231149 https://dk521123.hatenablog.com/entry/2019/11/10/205535 の続き。 今回は、ローカル環境にAWS環境を作成する LocalStack …

【AWS】IAM ~ 多要素認証(MFA)の設定 ~

■ はじめに https://dk521123.hatenablog.com/entry/2017/02/26/231046 の続き。 今回は、AWSでの多要素認証(MFA)について扱う。 なお、多要素認証(MFA)については、以下の関連記事を参照のこと。 多要素認証(MFA:Multi-Factor Authentication) https…

【AWS】WindowsでAWS CLIを使うには

AWS

■ はじめに AWS CLI (Command Line Interface) を Windows 上で設定できるようにするためのメモ。 目次 【1】AWS CLIの導入 1)AWS CLI をインストールする 2)動作確認 【おまけ】管理者権限なしでのAWS CLIの導入について 【2】クレデンシャル情報の設…

【AWS】Amazon EMR ~ EMRFS ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 https://dk521123.hatenablog.com/entry/2020/11/12/113312 の続…

【AWS】Amazon EMR ~ AWS Glueとの連携 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 の続き。 今回は、EMRからAWS Glueを利用する際に必要なことを纏…

【AWS】Amazon S3 ~ アクセス制御 / IAM Policy 編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/09/29/165636 の続き。 今回は、IAM Policy を使ったアクセス制御について、メモする。 これを細かく設定できれば、セキュリティ強化にかなり役立ちそう。 目次 【0】実装前に 【1】Read Onlyにす…

【トラブル】【AWS】boto3 AWS Glue API のトラブル ~ trigger全般 編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/16/205331 が長くなり、別ケースの例外メッセージもあったので分冊。 今回は、boto3 AWS Glue API の trigger全般 のトラブルを纏める 目次 【1】create_trigger() コール時に例外が発生する 【…

【AWS】AWS Lake Formation ~ 基礎知識編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/10/12/152659 の『【8】エラー「message:Insufficient Lake Formation permission(s) on global_temp」が表示』で ”Lake Formation”ってサービスが出てきたので、どんなものかと調べてみた。 目次 …

【トラブル】【AWS】AWS Glue のトラブル ~ job編 - [2] ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 の続き。 AWS Glue の Job に関するトラブルシューティングが 長くなってしまったので、分冊する。 目次 【1】エラー「At least one security group must open all ingress ports」が…

【AWS】AWS Glue ~ Excelを扱うには / PySpark (Glue2.0) 版 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/08/000000 の続き。 今回は、AWS Glue の PySpark (Glue2.0) で、Excelを扱う。 補足:PySpark (Glue1.0) 未満について 今回は、Pandas を使用する。 Pandas の PySpark でのデフォルトサポートは…

【AWS】Amazon S3 ~ S3 Glacier / S3 Glacier Deep Archive ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/03/06/212734 https://dk521123.hatenablog.com/entry/2020/07/22/195336 の続き。 S3 のコスト削減のために、 S3 Glacier / S3 Glacier Deep Archive の導入を考えているが 調べてみると結構思った…

【AWS】IAM ~ IAM Policy 編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/02/26/231046 の続き、又は、以下の関連記事の一部。 https://dk521123.hatenablog.com/entry/2020/09/29/165636 今回は、 IAM(Identity and Access Management)のIAM Policy(ポリシー) について…

【AWS】Amazon S3 ~ アクセス制御編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/03/06/212734 https://dk521123.hatenablog.com/entry/2017/04/03/235355 https://dk521123.hatenablog.com/entry/2017/12/15/232236 の続き。 トラブルシューティングのために、 Amazon S3 の アク…

【AWS】AWS Glue ~ AWS Glue Studio ~

AWS

■ はじめに 2020/09/24 現在、 AWS Glue コンソール上に「AWS Glue Studio New」って でてたので、どんなサービスかを調べてみた。 因みに、検索したところ、情報源は、以下の英語サイトだけ。 https://aws.amazon.com/jp/about-aws/whats-new/2020/09/annou…

【AWS】Glue から Redshift/PostgreSQL に接続する ~ PySpark編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/08/26/193237 の続き。 AWS Glue の Spark Job で、Redshift にデータを追加することなどを考える また、前回も述べているが、 Redshiftは、PostgreSQLから派生したものなので、 PostgreSQLでも使え…

【AWS】Amazon API Gateway ~ 入門編 ~

AWS

■ はじめに https://amazon.qwiklabs.com/ で「Introduction to Amazon API Gateway(日本語版)」って いうハンズオンラボがあったので、少し勉強してみる 個人的な感想 * ハンズオンラボにそって行えば、大体な雰囲気は理解できる * 特に、サービス始めで…

【AWS】Amazon Redshift ~ 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/04/07/124519 https://dk521123.hatenablog.com/entry/2020/02/22/002139 の続き。 QWIK Labs にある講座「Introduction to Amazon Redshift (日本語版)」 が無料でハンズオンラボを受けられるので、…

【AWS】Glue から Redshift/PostgreSQL に接続する ~ Python shell編 ~

AWS

■ はじめに AWS Glue の Job(Python) から、Redshiftに接続することをやったのだが 色々と考えることがあったので、まとめておく。 また、Redshiftは、PostgreSQLから派生したものなので、 PostgreSQLでも使える。 今回、やりたいこと AWS Glue の Job (後…