GDPRデータ最小化:リアルタイムAPI
2026年版に更新
GDPR第5条第1項(c)は「必要なものだけを収集する」と定めています。これがデータ最小化の原則です。多くのチームは悪意からではなく、フォームの設計によってこれに違反しています。フリーテキストフィールドは、誰も意図しなかった名前、住所、ID番号を引き寄せます。
後からデータベースを洗浄しても問題は解決しません。違反はデータを収集した時点で発生しています。源泉で止めることが唯一の本当の解決策です。フォーム送信時のリアルタイムAPIチェックが、過剰収集が始まる前に防ぎます。
GDPRの第5条に対するサポート方法については、コンプライアンス概要とセキュリティプラクティスをご覧ください。
フォームが過剰収集する理由
Webアプリのフリーテキストフィールドは、誰も計画しなかった個人データを集めます:
- サポートチケットの「理由」フィールドに病歴や保険番号が記入される
- アンケートの「その他コメント」欄にフルネームや電話番号が含まれる
- HRの「メモ」列に何年分もの非構造化個人情報が蓄積される
- 注文の「メモ」フィールドに問題解決のために入力された顧客ID番号が含まれる
最小化の原則は、これらのデータがシステムに入らないことを要求します。事後的な洗浄は症状を治療します。リアルタイム検出は原因を取り除きます。
事後的洗浄が不十分な理由
保存された個人データを洗浄するチームは4つの問題に直面します。
完全性。 パターンマッチングはメールアドレスやID番号などの明白なデータを見つけます。しかし文脈に基づく参照を見逃します。「妹のソフィアも同じ問題を抱えていた」という文には、ほとんどのスキャンが見逃す名前が含まれています。
法的タイミング。 違反は収集時に発生します。数カ月後にデータを洗浄しても修正できません。規制機関がデータが保持されていた期間を調査すれば、違反はすでに記録されています。
不完全な削除。 データベースはバックアップを作成します。システムはログを書き込みます。分析ツールはデータをエクスポートします。メインデータベースから削除した後でも、バックアップファイルや監査ログにコピーが残ることがあります。
侵害リスク。 収集と洗浄の間、余分なデータはシステムに存在します。その期間中に侵害が発生すると、過剰収集されたデータが侵害の範囲に含まれます。
源泉での収集停止はこれらを全て解決します。入ってこないデータは侵害されず、削除の必要もなく、違反にもなりません。
フォームバリデーションの検出パターン
フォームにリアルタイム個人データ検出を追加する方法は3つあります。
クライアントサイド(Chrome拡張機能)。 拡張機能はブラウザのフィールドでの貼り付けイベントを監視します。ユーザーが個人データを含むテキストを貼り付けると、エンティティが即座にハイライト表示されます。ユーザーは送信前に削除します。APIコールは不要で、検出はローカルで実行されます。エンティティタイプの定義は用語集をご覧ください。
サーバーサイド(API統合)。 フォームはサーバーにデータを送信します。データベースへの書き込み前に、コードが検出APIを呼び出します。APIはエンティティタイプを信頼スコアとともに返します。高信頼の一致は明確なメッセージとともに送信をブロックします。中程度の信頼の一致はレビューステップを促します。データは保存前にクリーンです。
ハイブリッド(推奨)。 クライアントサイドのハイライトはユーザーに素早いフィードバックを提供します。サーバーサイドのチェックはコンプライアンスの保証を提供します。ユーザーがクライアントの警告を無視しても、サーバーチェックがデータを検出します。データベースには未検査のものは何も届きません。検出閾値に関するよくある質問はFAQをご覧ください。
例:医療患者ポータル
患者ポータルでは、予約前に患者がフリーテキストフィールドに症状を記述できます。このフィールドには定期的に他の患者の名前、ID番号、自宅住所を含む入力があります。これらはスケジューリングシステムに属しません。
リアルタイム検出前:
- 症状フィールドの個人データ:送信の約12%
- 洗浄方法:週次バッチ処理
- コンプライアンス状況:リアクティブ — 第5条第1項(c)の違反は収集時に発生
送信時のAPI統合後:
- APIがデータベース書き込み前に高信頼の個人データを検出
- 患者は「メッセージに個人情報が含まれているようです。送信前に削除してください。」と表示される
- 患者が修正して再送信
- データベースは症状の説明のみを受け取る
このシナリオでは、フィールドの個人データは約12%から1%未満に減少しました。コンプライアンスは遡及的な洗浄ではなく、サーバーサイドの検出ログによって実証されています。
収集ポイントでの監査記録
規制機関は、リアクティブなチームとコントロールを実施しているチームを異なる扱いにします。GDPR第25条 — 設計およびデフォルトによるデータ保護 — は後者を評価します。
収集ポイントでの検出は有用な監査記録を作成します:
- 検出ログ。 各フォームスキャンは、発見されたエンティティタイプ、信頼スコア、取られたアクション、結果とともに保存されます。
- 月次レポート。 フィールドとエンティティタイプ別の検出率、ユーザーの反応を示す要約。
- 設定記録。 閾値設定、カバーされるフィールド、監視されるエンティティタイプ — これにより明確で管理された方針が示されます。
これらの記録は規制審査に役立ちます。内部監査と処理記録もサポートします。収集ポイントでのコントロールの実例はケーススタディをご覧ください。
AIツールとデータ最小化
サポートエージェントはAI下書きツールに顧客のメールを貼り付けることがよくあります。それらのメールには名前、住所、アカウント番号が含まれることがあります。それをAIモデルに送ると、必要以上のものを渡すことになる場合があります。
MCPサーバーは、テキストがモデルに届く前に検出ステップを追加します。顧客名は[CUSTOMER]になります。具体的な詳細は削除されます。AIはクリーンなテキストを使って返信を作成します。エージェントは返信に必要なものだけを追加します。
これによりAI利用のデータ最小化ルールを満たします。モデルは必要なものだけを受け取ります — 通常は個人データは全くありません。検出するエンティティタイプの完全なリストはエンティティをご覧ください。