GDPRとレガシースキャンファイル:PII検出のためのOCR
2026年版に更新
GDPRの監査でよく見つかる隠れたリスクがあります。デジタル化以前からある画像ベースのPDFアーカイブです。
法律事務所は20年分のスキャン済みクライアントファイルを保有しています。病院は数十年分の患者フォームを保管しています。行政機関はスキャンした記録を蓄積しています。銀行は画像形式のローンファイルを持っています。
これらのアーカイブには共通の特徴があります。ファイルはラスター画像です。スキャンされたPDF、TIFF、またはJPEGです。テキストレイヤーがありません。標準的なPIIツールはこれらを読み取れません。ほとんどの匿名化ツールにとって、これらのファイルは存在しないのと同じです。
よくある誤解:「これらは画像ファイルだからGDPRは適用されない」
GDPR第17条(1)は個人に消去の権利を与えています。前文第26条は、匿名化により情報が適用範囲外になると明記しています。いずれの条項も画像形式を例外扱いしていません。15年前のクライアントファイルの消去要求に応じられない法律事務所はコンプライアンス上のギャップを抱えています。免除されているわけではありません。
GDPRへの対応方法については、コンプライアンス概要とセキュリティプラクティスをご参照ください。
検出パイプラインの仕組み
プロセスは3つのステージで実行されます。
ステージ1 — OCR
OCRエンジンが画像を読み取りテキストを抽出します。各単語の位置を記録します。出力は座標付きの機械可読テキストです。手書き、色あせたインク、古い書体があると精度が低下します。
ステージ2 — NLPエンティティ検出
固有表現認識(NER)がOCRテキストを解析します。人名、組織名、地名を検出します。パターンマッチングがマイナンバー、電話番号、口座番号を追加します。各ヒットには信頼スコアが付与されます。
ステージ3 — 匿名化
検出されたエンティティはテキスト出力で置換されます。元の画像は変更されません。画像を変更するには別の編集ツールが必要です。匿名化されたテキストは消去要求、DSARへの回答、コンプライアンス記録に活用できます。
現代のOCRエンジンは、品質の高い印刷ページで文字精度98〜99%を達成します。手書きや劣化したスキャンは85〜92%まで低下します。エンティティレベルの精度は文字レベルの精度よりも高い傾向があります。いくつかの文字が誤っていても名前を特定できます。
実践的な結論:OCR精度は検出するエンティティの数に影響します。手法が機能するかどうかを決定しません。90%の精度でも、ほとんどの名前と番号を見つけられます。品質ティアは依然として必要です。手法自体は有効です。
大規模アーカイブの処理
大型のレガシーアーカイブは4フェーズのワークフローに従います。
フェーズ1 — 棚卸し: ソースシステムと日付範囲で全画像ベースアーカイブをリスト化します。消去リスクが高い記録を優先します。クライアント向けファイルが内部ファイルより先です。
フェーズ2 — バッチ処理: OCRとPII検出をバッチで実行します。1バッチあたり5,000〜10,000ファイルが一般的な規模です。処理は夜間に実行されます。出力はファイルごとのPIIレポートと匿名化テキスト抽出物です。
フェーズ3 — 消去要求の履行: 本人が名前と対象期間を記した要求を送ります。匿名化された抽出物からそのトークンを検索します。対象ファイルを見つけます。編集します。アクションを記録します。
フェーズ4 — 継続的コンプライアンス: 新しいスキャンファイルはアーカイブ前に同じパイプラインを通します。PIIレポートを第30条の処理活動記録の証拠として保持します。
ケーススタディ:法律事務所のアーカイブ
ある法律事務所の監査で、1998年から2010年にスキャンされた80,000件の画像ベースPDFクライアント契約が見つかりました。標準PIIツールは検出ゼロを示しました。画像形式が不可視だったのです。
15人の元クライアントが過去12カ月に消去要求を提出していました。事務所の回答は「記録が消去されたことを確認できません」でした。この回答はGDPR第17条を満たしていません。
事務所が行ったこと:
- 全80,000ファイルに対して5,000件バッチでOCRとPII検出を実施
- 処理期間:約3週間
- 結果:80,000件の匿名化テキスト抽出物とファイルごとのレポート
- エンティティをファイルIDに紐付ける検索可能なインデックスを作成
処理後:
- 1人の本人のファイルを見つける平均時間:4分
- 1件の要求あたりのファイル数:平均6〜8件
- 1件あたりの編集時間:20〜30分
15件の未解決要求はすべて30日以内に解決されました。
重要なポイント:コンプライアンス義務は処理前から存在していました。事務所にはツールがなかっただけです。OCRベースの処理は新しい義務を生んだわけではありません。既存の義務を果たせるようにしたのです。
OCRの限界と品質ティア
手書きはOCR精度が低くなります。手書きコンテンツを処理する前に信頼閾値を低く設定してください。
スキャン品質が低いと精度が下がります。OCR実行前にコントラスト強化と傾き補正を行うと改善します。
特殊なレイアウト — 複数列のページや古い法的書体 — も低いスコアになることがあります。
コンプライアンス作業には品質ティアを設定してください:
- ページ精度95%超:自動処理
- 80〜95%:自動処理後、フラグ付きエンティティを人間がレビュー
- 80%未満:手動レビュー必須
ティア制アプローチにより、規制当局に信頼性をどう評価したかを明確に説明できます。自動化ツールが高信頼ファイルを処理します。手動キューが残りを処理します。スループットは高いままです。コンプライアンス品質も高いままです。
OCRベースの処理や監査証跡要件に関するよくある質問はFAQをご覧ください。