Airflow
■ はじめに ローカル環境に、Dockerで Flink -> Kafka/Kafka Connect -> PostgreSQL の環境一式作るのを、コツコツやってきたのだが やっとできた、、、 あと、ついでに、開発用なんで KafkaとPostgreSQLのWeb UIも導入している 目次 【0】Github 【1】サ…
■ はじめに Airflow から EMR を立ち上げる方法についてメモる。 目次 【0】EMR種類 【1】EMR Serverless 【2】EMR 【0】EMR種類 * EMR には、以下の種類があり、使用するOperatorも変わる 1)EMR Serverless 2)EMR (on EC2) など # 他にも「Amazon E…
■ はじめに 久しぶりに、AirflowのDAGを作成することになったのだが 大分時間が経ってしまったので、ほとんど覚えておらず。。。 なので、今回は、そんなダメな自分への備忘録として DAGを作成することに特化したものを作る。 完全なリハビリ(復習)みたい…
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 https://dk521123.hatenablog.com/entry/2021/10/11/134840 の続き。 今回は、久しぶりに、Apache Airflow で、 Kubernetes で環境構築していく。 目次 【0】今回学べること 【1】前…
■ はじめに https://dk521123.hatenablog.com/entry/2022/01/13/101634 の「実行タイミングに関わる引数」で、 「start_date」「end_date」「schedule_interval」「catchup」「timetable」 について扱ったが、掘り下げてみる。 目次 【0】Airflowの実行タイ…
■ はじめに Apache Airflow の DAG の コンストラクタ引数やデフォルト引数について 調査する必要ができたので、メモ。 目次 【0】DAGの引数 【1】基本的な引数 1)dag_id 2)description 3)default_args 4)tags 【2】実行タイミングに関わる引数 …
■ はじめに https://dk521123.hatenablog.com/entry/2021/11/05/233309 の続き。 aws-mwaa-local-runner と LocalStack との 組み合わせについて扱う。 目次 【1】構築方針 1)前提条件 【2】構築手順 1)docker-compose の作成 2)「docker-compose up…
■ はじめに MWAA での単体試験 (Unit tests) について調査していたら、 以下のAWS公式ブログがヒットした。 https://aws.amazon.com/jp/blogs/opensource/automating-a-dag-deployment-with-amazon-managed-workflows-for-apache-airflow/ 上記によると、aws…
■ はじめに https://dk521123.hatenablog.com/entry/2021/10/10/000000 でリトライ(Re-run)を扱ったが、その調査の過程で、 以下のサイト https://blog.imind.jp/entry/2019/02/22/000049 などで コマンド(CLI; Command Line Interface)からでも、 タス…
■ はじめに https://dk521123.hatenablog.com/entry/2021/10/10/000000 https://dk521123.hatenablog.com/entry/2021/10/12/000000 の続き。 今回は、同実行数などの並列・マルチスレッド関連の設定について扱う 目次 【1】airflow.cfgでの制御 - Airflow全…
■ はじめに 色々と Airflow を触っていると 設定値を保持する仕組み・機構が揃っているので、 メモしておく 目次 【1】設定値の保持 - Variable 1)Web UIからデータの追加方法 2)それ以外の追加方法 3)サンプル 【2】コネクションの保持 - Connectio…
■ はじめに Apache Airflow の タイムアウト について扱う。 目次 【1】DAGのタイムアウト関連のプロパティ 1)dagrun_timeout 2)dag_file_processor_timeout 3)dagbag_import_timeout 使用上の注意 使用イメージ 【2】タスクのタイムアウト関連のプ…
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 で、ローカル上に Airflowの環境を構築したが、 いつの間にか環境がぶっつぶれた。 どうせなら、Dockerでやってみようと思ったので、メモ。 目次 【1】前提条件 【2】構築環境例 【3…
■ はじめに Apache Airflow の リトライ について扱う。 目次 【1】手動でリトライ - 再実行 【2】airflow.cfgでの制御 - Airflow全体の設定 1)default_task_retries 2)max_db_retries 【3】タスクのリトライ関連のプロパティ 1)retries 2)retry_…
■ はじめに https://dk521123.hatenablog.com/entry/2021/10/06/141323 の続き。 通知に関するサンプルをまとめておく。 目次 例1:SlackAPIPostOperatorを使ってSlackへ通知 1)前提条件 2)サンプル 例2:SlackWebhookOperatorを使ってSlackへ通知 1…
■ はじめに https://dk521123.hatenablog.com/entry/2021/09/29/131101 で、MWAA(Amazon Managed Workflow for Apache Airflow)を 使っていて、出くわした問題について、徐々にでは、 その解決方法などのトラブルシュートをメモっておく。 目次 【1】ログ…
■ はじめに Apache Airflow で処理の失敗時やワークフロー成功時に 以下のサービスへ通知する方法を調べたので、メモっておく。 ~~~~~~~~~~ 【1】Slack 【2】Email / AWS SES 【3】AWS SNS 【4】Microsoft Teams ~~~~~~~~~~ 目次 【0】全般的な注意点 …
■ はじめに https://dk521123.hatenablog.com/entry/2021/09/29/131101 の続き。 今回は、以下のサイトで 使用されている S3 Sensor について調べてみた https://amazon-mwaa-for-analytics.workshop.aws/en/workshop-2.0.2/m1-processing/s3.html 目次 【1…
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 で発生したトラブルを纏めておく。 目次 【1】Dockerによる環境設定でdocker-compose up後にエラー表示 【2】エラー「ModuleNotFoundError: No module named 'airflow.providers'」が…
■ はじめに https://dk521123.hatenablog.com/entry/2021/09/29/131101 で、AWS 上で、 Apache Airflow(NWAA:Amazon Managed Workflow for Apach Airflow)を 動かした際に、ちらほら抜けている部分が多かったので 基本的なTip集をメモしておく。 目次 【…
■ はじめに MWAA(Amazon Managed Workflow for Apache Airflow) に関して、触れるのでメモ 目次 【1】MWAA(Amazon Managed Workflow for Apache Airflow) 1)メリット 2)デメリット 3)サポートバージョン 【2】技術メモ 1)DAG の作成 2)DAG …
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 https://dk521123.hatenablog.com/entry/2021/07/24/233012 https://dk521123.hatenablog.com/entry/2021/07/28/234319 で、Airflowを予習していたのだが、すっかり忘れてしまった。 と…
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 https://dk521123.hatenablog.com/entry/2021/07/24/233012 の続き。 Apache Airflow の基本的な構成などをメモしておく。 目次 【1】Airflow の基本構成 1)Web Server 2)Schedule…
■ はじめに https://dk521123.hatenablog.com/entry/2021/07/18/004531 の続き。 今回は、Apache Airflow に関する Hello world的なことを行ってみる。 目次 【1】参考になるサイト 【2】サンプル 【3】実行コマンド 1)コードの確認 2)DAGの確認 3)…
■ はじめに Amazon Managed Workflows for Apache Airflow (MWAA) っていう AWSサービスがあるのだが、その元となっている Apache Airflow を 気軽に触ってみたいので、ローカル上に環境を構築してみる 目次 【1】Apache Airflow 【2】環境構築する上での…