スプレッドシートはドキュメントではない
Wordファイルはテキストストリームです。Excelファイルは別物です。セルは他のセルを参照します。数式は範囲を操作します。ピボットテーブルは名前付きデータをグループ化します。マクロはワークブック全体を走査します。多くの編集ツールはExcelをテキスト文書として扱います。これは誤ったモデルです。
簡単な例を示します。列Aに顧客名があります。列Dにはこの数式があります:=VLOOKUP(A2, CustomerTable, 5, FALSE)。この数式は名前で口座残高を検索します。列Aの名前を置き換えます。数式や参照テーブルは更新しません。数式は元の名前の実際の残高を返し続けます。ファイルはきれいに見えます。実際はそうではありません。
これは企業向けExcelファイルでよく見られます。データはセルだけでなく、関係の中に存在します。セル値を置き換えるだけでは、個人情報が残ります。
GDPRの第28条と外部共有
GDPR第28条はプロセッサーへのデータ共有を規定しています。コンサルタント、ベンダー、監査人に個人データを送る場合、適切な技術的安全措置が必要です。
5万行の顧客ファイルを分析ベンダーと共有する必要があるとします。PDFエクスポートは数式を削除します。複雑なフォーマットの大きなファイルも壊れます。CSVも数式とピボットテーブルを削除します。どちらもベンダーが使えるデータセットを提供できません。
唯一の解決策:ネイティブExcelフォーマット内で匿名化する。識別値を置き換える。構造を保持する。ベンダーは使えるファイルを受け取ります。GDPRの安全措置要件を満たします。
エアギャップ環境
**政府・防衛調達のRFPの67%**がエアギャップ環境要件を記載しています(DISA 2024)。防衛請負業者はExcelで人事データ、物流記録、調達ファイルを管理します。クラウドツールは使えません。データは管理されたネットワークから出られません。
デスクトップアプリがこれを解決します。Excelファイルをローカルマシンで処理します。処理中にネットワーク呼び出しは発生しません。出力ファイルはエアギャップ環境から出ることはありません。内部チームは管理されたネットワーク内でクリーンなファイルを共有できます。
これは政府契約のコンプライアンスに必要な技術プロファイルを満たします。
セルインテリジェンスの3つのレベル
優れたExcel匿名化は同時に3つのレベルで機能します。
値レベル: 個々のセルの個人情報を検出して置き換えます。名前、メール、電話番号、国民IDは文書処理と同じ検出エンジンで識別されます。
数式レベル: 個人情報を含むセルを参照する数式があるセルを見つけます。それらの参照を匿名化された値に更新します。または、数式ベースの漏洩を防ぐために数式をその結果で置き換えます。
構造レベル: ピボットテーブルのデータキャッシュをクリアします。非表示の行と列を処理します。特定のセルアドレスや値を使用するVBAマクロコードを処理します。
3つのレベルはすべて一緒に動く必要があります。数式を修正せずに値を修正すると個人情報が残ります。キャッシュをクリアせずに数式を修正しても同じ結果になります。
この課題はすべてのファイル形式に存在します。詳しくはフォーマットの断片化がPII検出に与える影響をご覧ください。
APIレベルで構造化データを扱うチームは:リアルタイムAPIにおけるGDPRデータ最小化。
大量のDSARエクスポートには:スケールでのGDPR DSARバッチ処理。