◾️はじめに
AWS環境に、機密情報を含まない本物チックなダミーデータを 生成できる環境を構築したい。 まずは、AIさんに聞きながら、ざっくり考えや課題を洗い出してみる
目次
【1】やりたいこと 1)合成データ(Synthetic Data)とは? 【2】処理の流れ 【3】使用検討したいサービス 1)使えそうなPythonライブラリ 2)使えそうなSnowflake機能 【4】サービス構成 1)As small start
【1】やりたいこと
本番環境(アカウントA)にある機密情報を含む本番データの 統計的特徴を維持したまま、機密情報を含まない合成データ(Synthetic Data) を生成し、それをステージング環境(アカウントB)に提供したい
1)合成データ(Synthetic Data)とは?
https://aws.amazon.com/jp/what-is/synthetic-data/
より抜粋 ~~~~~~~~ 合成データは、現実世界のデータを模倣した、 人間が作成したデータではありません。 生成型人工知能技術に基づく計算アルゴリズムと シミュレーションによって作成されます。 ~~~~~~~~
【2】処理の流れ
* 本番環境(アカウントA)で以下を行う
[1] プロファイリング
* Glue DataBrew や SageMaker を使い、 本番データの統計情報(平均、分散、カラム間の相関、文字種)を抽出
[2] AIによる「生成ロジック」の確定
* 数千件程度のサンプルを LLM (Bedrockなど) に食わせ、 このデータの特徴を模したダミーデータを生成する PySpark コード、 または統計パラメータを生成
[3] データ生成
* AWS Glue でよさそう
[4] クロスアカウント(アカウントB)に書き込み
* AWS Glue のロールに、アカウントBのS3の書き込み権限が必要
【3】使用検討したいサービス
* Amazon SageMaker * Amazon Bedrock(アマゾン・ベッドロック)
Amazon SageMaker AI ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/03/18/223033
Amazon Bedrock 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/23/094334
1)使えそうなPythonライブラリ
| Pythonライブラリ | 説明 |
|---|---|
| Faker | 名前、住所、IPアドレスなどの「それっぽい」データを高速に生成 |
| DataSynthesizer | 統計的な相関を維持したまま、プライバシーを保護したデータを生成 |
| SDV (Synthetic Data Vault) | 大規模なテーブル構造を学習し、それに基づいた合成データを生成 |
Python 〜 Faker 〜
https://dk521123.hatenablog.com/entry/2025/12/20/001758
Python SDV 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/21/000330
Python SDV 〜 HMASynthesizer 〜
https://dk521123.hatenablog.com/entry/2025/12/26/001812
2)使えそうなSnowflake機能
* 以下の関連記事を参照
Snowflake ~ GENERATE_SYNTHETIC_DATA ~
https://dk521123.hatenablog.com/entry/2025/12/24/001900
【4】サービス構成
1)As small start
* ひとまず、Small startで行くなら以下の構成でいいのかなっと。
| Items | Choose |
|---|---|
| IaC | Terraform |
| Cloud | AWS |
| Platform | AWS Glue |
| Language | Python |
| Tool Library | Python SDV (Synthetic Data Vault) |
関連記事
AWS上に合成データ生成システムを構築する 〜 インフラ編 〜
https://dk521123.hatenablog.com/entry/2025/12/25/000120
Amazon Bedrock 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/23/094334
Amazon SageMaker AI ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/03/18/223033
Python 〜 Faker 〜
https://dk521123.hatenablog.com/entry/2025/12/20/001758
Python SDV 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/21/000330
Python SDV 〜 HMASynthesizer 〜
https://dk521123.hatenablog.com/entry/2025/12/26/001812
Python 〜 ファイル形式判定を考える 〜
https://dk521123.hatenablog.com/entry/2025/12/22/000759
Snowflake ~ GENERATE_SYNTHETIC_DATA ~
https://dk521123.hatenablog.com/entry/2025/12/24/001900
AWS Glue ~ Wheelファイル作成 ~
https://dk521123.hatenablog.com/entry/2026/01/13/191945