◾️はじめに
Datadog で MWAA / Airflow を監視するための 技術メモを徐々にではあるが残しておく。
目次
【1】MWAA 【2】Airflow
【1】MWAA
* AWS の MWAA(Amazon Managed Workflows for Apache Airflow) もサポートされている
https://docs.datadoghq.com/ja/integrations/amazon_mwaa/
1)主なメトリクス
Value | Type | Explanations |
---|---|---|
aws.mwaa.operator_failures / operator_successes | count | Operator <operator_name> の失敗/成功。Airflow v1 および v2 の両方で利用可能 |
aws.mwaa.poked_exceptions / aws.mwaa.poked_success | count | pokeでのセンサにおける例外発生/成功回数。Airflow v2でのみ利用可能 |
aws.mwaa.processor_timeouts | count | 処理に時間がかかりすぎたために終了されたファイルプロセッサの数。Airflow v1 および v2 の両方で利用可能 |
aws.mwaa.task_timeout_error | count | Celeryブローカーへのタスク公開時に発生したAirflowTaskTimeoutエラーの数。Airflow v2でのみ利用可能 |
2)設定
https://docs.datadoghq.com/ja/integrations/amazon_mwaa/
[1] Amazon Web Services インテグレーションを まだセットアップしていない場合は、 最初にセットアップ [2] AWS インテグレーションページで、 Metric Collection タブの下にある MWAA が 有効になっていることを確認 [3] Datadog - Amazon Managed Workflows for Apache Airflow (MWAA) インテグレーション をインストール [4] Amazon MWAA を構成して、CloudWatch にログを送信するよう設定
【2】Airflow
* 素のAirflowもサポートされている
https://docs.datadoghq.com/ja/integrations/airflow/
1)主なメトリクス
Value | Type | Explanations |
---|---|---|
airflow.celery.task_timeout_error | count | AirflowTaskTimeout が発生した数 |
airflow.dag.callback_exceptions | count | DAGコールバックからが発生したException数 |
airflow.job.heartbeat.failure | count | Job <<job_name>> のハートビート失敗 |
airflow.operator_failures / operator_successes | count | Operator <operator_name> の失敗/成功 |
airflow.smart_sensor_operator.exception_failures | count | pokeでのセンサにおける例外発生回数 |
関連記事
datadog ~ 基礎知識編 ~
https://dk521123.hatenablog.com/entry/2024/03/30/004746
datadog ~ integration ~
https://dk521123.hatenablog.com/entry/2025/04/11/003254