再現可能なプライバシー保護:MLチームにドキュメントではなく設定プリセットが必要な理由
DPOは匿名化手順を承認しました。対象は4項目です:名前、メール、電話番号、生年月日。方法は「置換」です。手順書は4ページで、コンプライアンスのwikiにあります。
12人のデータサイエンティストがキックオフ時に読みます。それぞれがツールを自分で設定します。ある人は国民IDを追加します。別の人はIPアドレスを追加します。別の人は「削除」に切り替えます。3か月後、データセットは一貫していません。
CNILは2024年に複数のAI企業を調査しました。問題はモデル用データセットへの個人データの不適切な使用です。調査官は匿名化が行われたかどうかだけでなく、どれだけ一貫して適用されたかを問いました。
ドキュメントは必要です。しかし十分ではありません。技術的な解決策はプリセットです。
MLデータセットに独自設定が必要な理由
モデル用データセットの構築には固有の要件があります。一般的なドキュメント匿名化はそれを共有しません。
削除ではなく置換。 名前が [削除済み] になったテキストで訓練されたモデルは、そのトークンを名前位置のマーカーとして学習します。これはモデルを傷めます。置換は「山田太郎」を「鈴木一郎」に入れ替えます。モデルは実際の名前パターンを学習します。マスクトークンは見ません。
全レコードで同じ処理。 70%の名前が置換され、30%が削除されたデータセットは混合したシグナルを送ります。各レコードは同じ手順を経る必要があります。
同じエンティティリスト。 データセットに健康データが含まれる場合、一部のレコードで名前を削除しながら生年月日を残すとギャップが生じます。12人全員が同じエンティティタイプを削除する必要があります。
過剰な削除は禁物。 生年月日ではなくタイムスタンプの日付を削除すると、コンプライアンス上の利益なしにデータセットの品質が低下します。承認済みプリセットが削除する項目を正確に定義します。
再現可能な出力。 見逃したエンティティタイプが見つかった後など、データセットを再処理する必要がある場合、プリセットは毎回同じ結果を出します。アドホックな設定はそうなりません。
12人のデータサイエンティスト問題
欧州のフィンテックMLチームは顧客ログのデータセットを使用しています。DPOは目的(不正検出)を1つのルールで承認しました:モデル作業を始める前に、すべての顧客名、メール、電話番号、支払いIDを置換する必要があります。
プリセットなしの場合:
- 担当者1は名前、メール、電話番号を削除するが、支払いIDを見逃す
- 担当者2は支払いIDを含めるが、置換ではなく削除を使用する
- 担当者3は手順書に正確に従う
- 担当者4〜12は様々
統合されたデータセットは部分的に非準拠で、部分的に過剰処理です。DPOは認証できません。
DPO承認プリセットを使用する場合:
- DPOは正確なエンティティタイプと置換方法で「MLデブ — 不正検出」を作成する
- プリセットは全12人に1つのルールとともに配布:データセット作業にはこれを使用する
- DPOの承認なしにプリセットを変更することはできない
全員が同じ結果を生成します。統合されたデータセットは一貫しています。年次AI監査は指摘なしで合格します。前年はデータセット作業の不一致から3件の指摘がありました。
GDPRとAI法
2026年版に更新
EU AI法は2024年8月に完全施行されました。個人データをモデル作業に使用するAIシステムにルールを追加します。高リスクAIシステムはデータセットを文書化する必要があります。適用された匿名化措置を含めて。
GDPR第5条(1)(b)、目的制限ルールは、明確な法的根拠なしに個人データを使用することを禁止します。CNILの2024年の執行措置はこのギャップに焦点を当てました:あるサービスのために収集されたデータが、有効な根拠や匿名化なしにモデル作業に使用されていた。
プリセットは両方のルールセットを満たすのに役立ちます:
- プリセット名と設定:文書化された方法
- 処理ログ:方法が適用されたことの証明
- DPO承認:設定に関する記録された決定
これにより、両法律が要求する監査証跡が作成されます。第10条の詳細については、EU AI法トレーニングデータガイドを参照してください。
NLPデータセットのプリセット設定
ほとんどのNLPデータセットに含まれるタイプ:
- PERSON — 類似の名前に置換
- EMAIL_ADDRESS — 合成アドレスに置換
- PHONE_NUMBER — 合成番号に置換
- CREDIT_CARD / IBAN — 置換または削除
- LOCATION — 地理が重要な場合は類似の場所に置換;そうでない場合は削除
- DATE_OF_BIRTH — 削除;年齢グループ化がしばしば必要
よく除外されるタイプ:
- 一般的な日付 — タイムスタンプは時系列モデルに役立つ
- 組織名 — 固有表現認識モデルに役立つ
- URL — リンクと参照モデルに役立つ
MLリーダーとDPOが承認済みプリセットでこれらのルールを定義します。チームメンバーはそれを適用します。設定の決定は行いません。
組織的記憶としてのプリセット
プリセット導入前。 正しいエンティティ設定は3人のデータサイエンティストの頭の中にありました。2人がQ3に退職しました。知識も去りました。
プリセット導入後。 設定は「MLデブ — 顧客データv2.1」に生きています。バージョン履歴には作成日時、承認者、v2.0からの変更内容が記録されています。新しいチームメンバーはプリセットを使用し、組み込まれた知識を全て受け継ぎます。
バージョン2.1はレビューで漏れが判明した後にIBAN検出を追加しました。バージョン2.0は2025年2月に承認されました。ログは完全です。
処理ログとDPOレビューフローの仕組みについては、GDPRのMLトレーニング匿名化ガイドを参照してください。
プリセットとCNILの執行パターン
CNILの2024年AI事例は明確なパターンを確立しています。何が削除されたかだけでなく、どのように管理されたかを問います。DPO承認記録と処理ログを持つ共有プリセットがこれに直接答えます。
アドホックな設定はそうなりません。同じギャップはCNILロジックに従う他のEUデータ保護当局にも存在します。CNILのAIアプローチの詳細については、CNIL GDPR AIコンプライアンスガイドを参照してください。
まとめ
ドキュメントはチームメンバーに何をすべきかを伝えます。プリセットは毎回同じ方法でそれを行うことを簡単かつ強制力のあるものにします。
MLデータセットにとって、一貫性は法的要件でも技術的要件でもあります。プリセットは両方を同時に満たします。
AIの実践を審査するデータ保護当局は、均一な匿名化の証拠を求めます。全てのデータセット作業で同じように適用されたプリセットが、提供できる最も明確な証拠です。