【AWS】AWS上に合成データ生成システムを構築する 〜 構想編 〜

◾️はじめに

AWS環境に、機密情報を含まない本物チックなダミーデータを
生成できる環境を構築したい。
まずは、AIさんに聞きながら、ざっくり考えや課題を洗い出してみる

目次

【1】やりたいこと
 1)合成データ(Synthetic Data)とは?
【2】処理の流れ
【3】使用検討したいサービス
 1)使えそうなPythonライブラリ
 2)使えそうなSnowflake機能
【4】サービス構成
 1)As small start

【1】やりたいこと

本番環境(アカウントA)にある機密情報を含む本番データの
統計的特徴を維持したまま、機密情報を含まない合成データ(Synthetic Data)
を生成し、それをステージング環境(アカウントB)に提供したい

1)合成データ(Synthetic Data)とは?

https://aws.amazon.com/jp/what-is/synthetic-data/

より抜粋
~~~~~~~~
合成データは、現実世界のデータを模倣した、
人間が作成したデータではありません。
生成型人工知能技術に基づく計算アルゴリズムと
シミュレーションによって作成されます。
~~~~~~~~

【2】処理の流れ

* 本番環境(アカウントA)で以下を行う

[1] プロファイリング

* Glue DataBrew や SageMaker を使い、
 本番データの統計情報(平均、分散、カラム間の相関、文字種)を抽出

[2] AIによる「生成ロジック」の確定

* 数千件程度のサンプルを LLM (Bedrockなど) に食わせ、
 このデータの特徴を模したダミーデータを生成する PySpark コード、
 または統計パラメータを生成

[3] データ生成

* AWS Glue でよさそう

[4] クロスアカウント(アカウントB)に書き込み

* AWS Glue のロールに、アカウントBのS3の書き込み権限が必要

【3】使用検討したいサービス

* Amazon SageMaker
* Amazon Bedrock(アマゾン・ベッドロック)

Amazon SageMaker AI ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/03/18/223033
Amazon Bedrock 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/23/094334

1)使えそうなPythonライブラリ

Pythonライブラリ 説明
Faker 名前、住所、IPアドレスなどの「それっぽい」データを高速に生成
DataSynthesizer 統計的な相関を維持したまま、プライバシーを保護したデータを生成
SDV (Synthetic Data Vault) 大規模なテーブル構造を学習し、それに基づいた合成データを生成

Python 〜 Faker 〜
https://dk521123.hatenablog.com/entry/2025/12/20/001758
Python SDV 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/21/000330
Python SDV 〜 HMASynthesizer 〜
https://dk521123.hatenablog.com/entry/2025/12/26/001812

2)使えそうなSnowflake機能

* 以下の関連記事を参照

Snowflake ~ GENERATE_SYNTHETIC_DATA ~
https://dk521123.hatenablog.com/entry/2025/12/24/001900

【4】サービス構成

1)As small start

* ひとまず、Small startで行くなら以下の構成でいいのかなっと。
Items Choose
IaC Terraform
Cloud AWS
Platform AWS Glue
Language Python
Tool Library Python SDV (Synthetic Data Vault)

関連記事

AWS上に合成データ生成システムを構築する 〜 インフラ編 〜
https://dk521123.hatenablog.com/entry/2025/12/25/000120
Amazon Bedrock 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/23/094334
Amazon SageMaker AI ~ 入門編 ~
https://dk521123.hatenablog.com/entry/2020/03/18/223033
Python 〜 Faker 〜
https://dk521123.hatenablog.com/entry/2025/12/20/001758
Python SDV 〜 入門編 〜
https://dk521123.hatenablog.com/entry/2025/12/21/000330
Python SDV 〜 HMASynthesizer 〜
https://dk521123.hatenablog.com/entry/2025/12/26/001812
Python 〜 ファイル形式判定を考える 〜
https://dk521123.hatenablog.com/entry/2025/12/22/000759
Snowflake ~ GENERATE_SYNTHETIC_DATA ~
https://dk521123.hatenablog.com/entry/2025/12/24/001900
AWS Glue ~ Wheelファイル作成 ~
https://dk521123.hatenablog.com/entry/2026/01/13/191945