AWS

【トラブル】【AWS】EMR / DBアクセス に関するトラブルシューティング

■ はじめに Amazon EMR 上で エラー「Error encountered near token 'TOK_TMP_FILE'」や エラー「NoRouteToHostException: No route to host」が発生した。 その際の調査方法や解決案などを記しておく。 目次 【1】発生現象 / エラー内容 1)Create table …

【AWS】AWS Glue ~ Boto3 / DB・テーブル操作編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/06/09/113458 の続き。 今回は、Glue で使用するテーブル情報取得および作成について扱う。 (本当は、テーブル操作までにするつもりだったが) 「【2】テーブル作成」の際に「EntityNotFoundExcept…

【AWS】AWS Glue ~ Boto3 / パーティション操作編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/28/142153 のAWS Management Console画面において、 パーティションを個別で削除しようと思ったが、 画面からは削除できなかったため、 代わりに、Boto3のAPIを使って、削除した。 (ちなみに、パ…

【AWS】Amazon EventBridge

AWS

■ はじめに Amazon EventBridge に関して扱うかもしれないので どんなサービスなのかを調べてみた。 目次 【1】EventBridge とは? 【2】EventBridge の 利点 【3】Amazon Cloud Watch Eventsとの違い 【4】AWS サービスからのイベント 【1】EventBridg…

【AWS】Amazon SNS ~ 通知サービス ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/04/28/234103 の続き。 AWS EMRで失敗した際のイベント通知方法を調べていたら、 以下のサイトが見つかり、そこに 「Amazon Simple Notification Service (Amazon SNS)」と あったので、どんなサービ…

【AWS】AWS Glue ~ クローリング結果の確認画面 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/01/003455 で行ったクローラでの動作後に AWS Glue で [Databases]-[Tables] に遷移して クローリング結果を確認する際に表示項目などに不明点があった。 そこで、今回は、そのページおよびその派…

【トラブル】AWS Glue上で saveAsTextFile() を使ったら エラー「DirectOutputCommitter not found」が発生する

■ はじめに AWS Glue 上で RDD.saveAsTextFile() を使ったら エラー「DirectOutputCommitter not found」が発生したので その際のトラブルシュートをメモする。 目次 【1】エラー内容 【2】発生したコード(一部) 【3】解決案 案1:DirectFileOutputCom…

【トラブル】AWS Glue上で エラー「Dynamic partition strict mode requires ...」が発生する

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/15/130604 を調査している際に、以下「参考サイト」で 『GlueのSparkバージョンが2.3.0になれば』って記載されていた。 で、以下のAWS Glue の公式サイト https://docs.aws.amazon.com/ja_jp/glue…

【AWS】Glue Job から パーティションを更新することを考える

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2021/05/14/095125 の続き。 Glue Job からパーティション更新を行うことを考える。 目次 ■ Job からパーティション更新実装案 ■ 案1)GlueContext クラスを駆使して実装する 方法 1:write_dynamic_fram…

【AWS】Glue からクローリングして外部テーブルを作成する

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/01/003455 の続き。 今回は、Glue で作成したファイルを外部テーブルにする際に 得た知識・ノウハウをメモしておく。 軽く書くつもりが、結構なボリュームになってしまった、、、 目次 【1】Glue…

【AWS】Glue から DataCatalogテーブル に対して Spark SQLを実行する

AWS

■ はじめに Glue から DataCatalogテーブル に対して Spark SQLを実行した際に、いくつか注意点があるので メモしておく 目次 【1】使用上の注意 1)Glue Job で Glue DataCatalog を有効にする 2)「select * from [DB].[Table] ...」ではなく「use [DB]…

【トラブル】【AWS】AWS Glue のトラブル ~ job編 [4] ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 https://dk521123.hatenablog.com/entry/2020/10/12/152659 https://dk521123.hatenablog.com/entry/2021/02/16/145848 の続き。 今回も、AWS Glue の job で発生したトラブルについて…

【AWS】AWS Data Wrangler ~ 入門編 ~

AWS

■ はじめに AWS Data Wrangler ってのがあるようなので調べてみた。 目次 【1】AWS Data Wrangler 0)公式ドキュメント 1)AWS Data Wranglerとは? 【2】環境設定 1)pip / conda 2)AWS Glue 3)その他AWSサービス 【1】AWS Data Wrangler 0)公…

【AWS】AWS Glue ~ CloudWatch Metrics ~

AWS

■ はじめに AWS Glue の CloudWatch Metrics(メトリクス) について、 徐々にメモする。 目次 【1】公式ドキュメント 【2】関連用語 1)ステージ(Stages) 2)タスク(Tasks) 3)ドライバ(Driver) 4)エグゼキュタ(Executors) 【3】メトリクスの…

【AWS】AWS Glue ~ Boto3 / 基本編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 の続き。長くなったので、分冊。 今回は、boto3 API を使って、 PythonでGlueのコンポーネント(Workflow/Job/Trigger ※)を デプロイする簡単なサンプルの実装および 環境周りなどの注…

【AWS】AWS Glue ~ Boto3 / クローラ編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/14/000000 https://dk521123.hatenablog.com/entry/2021/04/17/001930 の続き。 boto3 を使ったクローラ作成時に結構エラーが出たので、 備忘録的にメモしておく。 目次 【1】各設定値について …

【トラブル】【AWS】AWS Glue のトラブル ~ job編 - [3] ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 https://dk521123.hatenablog.com/entry/2020/10/12/152659 の続き。 新しくAWS Glue を作業していて、新たにトラブルシューティングを行ったのでメモ。 後、過去記事を分冊して整理し…

【AWS】Amazon VPC (Virtual Private Cloud) ~ 入門編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/08/105415 の続き。 コツコツまとめてきたが肥大になって見にくくなったので 分冊する。 目次 【1】VPC で知っておくべき事項 1)使用できないIPアドレス 【2】VPC設定・概要 【3】Private Ne…

【AWS】LocalStack ~ awscli-local ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/12/14/010524 https://dk521123.hatenablog.com/entry/2019/12/16/231149 https://dk521123.hatenablog.com/entry/2019/11/10/205535 の続き。 今回は、ローカル環境にAWS環境を作成する LocalStack …

【AWS】IAM ~ 多要素認証(MFA)の設定 ~

■ はじめに https://dk521123.hatenablog.com/entry/2017/02/26/231046 の続き。 今回は、AWSでの多要素認証(MFA)について扱う。 なお、多要素認証(MFA)については、以下の関連記事を参照のこと。 多要素認証(MFA:Multi-Factor Authentication) https…

【AWS】WindowsでAWS CLIを使うには

AWS

■ はじめに AWS CLI (Command Line Interface) を Windows 上で設定できるようにするためのメモ。 目次 【1】AWS CLIの導入 1)AWS CLI をインストールする 2)動作確認 【おまけ】管理者権限なしでのAWS CLIの導入について 【2】クレデンシャル情報の設…

【AWS】Amazon EMR ~ EMRFS ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 https://dk521123.hatenablog.com/entry/2020/11/12/113312 の続…

【AWS】Amazon EMR ~ AWS Glueとの連携 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/02/20/230519 https://dk521123.hatenablog.com/entry/2020/05/27/175610 https://dk521123.hatenablog.com/entry/2020/06/24/173334 の続き。 今回は、EMRからAWS Glueを利用する際に必要なことを纏…

【AWS】Amazon S3 ~ アクセス制御 / IAM Policy 編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/09/29/165636 の続き。 今回は、IAM Policy を使ったアクセス制御について、メモする。 これを細かく設定できれば、セキュリティ強化にかなり役立ちそう。 目次 【0】実装前に 【1】Read Onlyにす…

【トラブル】【AWS】boto3 AWS Glue API のトラブル ~ trigger全般 編 ~

■ はじめに https://dk521123.hatenablog.com/entry/2020/01/16/205331 が長くなり、別ケースの例外メッセージもあったので分冊。 今回は、boto3 AWS Glue API の trigger全般 のトラブルを纏める 目次 【1】create_trigger() コール時に例外が発生する 【…

【AWS】AWS Lake Formation ~ 基礎知識編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2020/10/12/152659 の『【8】エラー「message:Insufficient Lake Formation permission(s) on global_temp」が表示』で ”Lake Formation”ってサービスが出てきたので、どんなものかと調べてみた。 目次 …

【トラブル】【AWS】AWS Glue のトラブル ~ job編 - [2] ~

■ はじめに https://dk521123.hatenablog.com/entry/2019/10/25/232155 の続き。 AWS Glue の Job に関するトラブルシューティングが 長くなってしまったので、分冊する。 目次 【1】エラー「At least one security group must open all ingress ports」が…

【AWS】AWS Glue ~ Excelを扱うには / PySpark (Glue2.0) 版 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2019/11/08/000000 の続き。 今回は、AWS Glue の PySpark (Glue2.0) で、Excelを扱う。 補足:PySpark (Glue1.0) 未満について 今回は、Pandas を使用する。 Pandas の PySpark でのデフォルトサポートは…

【AWS】Amazon S3 ~ S3 Glacier / S3 Glacier Deep Archive ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/03/06/212734 https://dk521123.hatenablog.com/entry/2020/07/22/195336 の続き。 S3 のコスト削減のために、 S3 Glacier / S3 Glacier Deep Archive の導入を考えているが 調べてみると結構思った…

【AWS】IAM ~ IAM Policy 編 ~

AWS

■ はじめに https://dk521123.hatenablog.com/entry/2017/02/26/231046 の続き、又は、以下の関連記事の一部。 https://dk521123.hatenablog.com/entry/2020/09/29/165636 今回は、 IAM(Identity and Access Management)のIAM Policy(ポリシー) について…