By · Last updated 2026-06-05

ブログに戻るテクニカル

ドキュメント形式の分散: PII匿名化

PDF、Word、Excel、Confluence、Slack、ChatGPT など複数の形式に分散したドキュメントのPII検出と匿名化。

June 5, 20267 分で読めます
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

PII コンプライアンスにおけるマルチフォーマット問題

2026年版に更新済み

コンプライアンス担当者に、DSARの回答でどのフォーマットを匿名化するか聞いてみましょう。答えはいつも同じです。Wordの契約書、PDFの請求書、Excelの顧客データ、CSVのエクスポート、JSONのログです。

次に、どのツールを使うか聞いてみましょう。答えは大抵、3〜5種類の異なるツールです。各ツールはエンティティのカバレッジが異なります。設定も異なります。監査ログの形式も異なります。

これがフォーマットの断片化です。これは実際のコンプライアンスの欠陥を生み出します。

断片化が起きる理由

すべての本番フォーマットを同じ品質で処理できる単一のツールはありませんでした。各フォーマットに特化したツールが生まれました。PDFには一つ。スプレッドシートには一つ。CSVにはマクロ。それぞれが独自のエンティティリストを持っています。監査証跡を共有するものはありません。

結果は予測可能です。DSAR回答は複数のファイルタイプにまたがります。複数のツールが処理します。各ツールは異なる基準を使います。エンティティXはPDFで検出されますが、Excelファイルでは見逃されます。DPAの監査はこの不整合を明らかにします。

フォーマット固有の技術的課題

各フォーマットは独自の検出問題を生み出します。

PDF

PDFには2種類あります。ネイティブテキストと画像ベースのスキャンです。スキャンされたPDFはまずOCRが必要です。OCRはエラーを引き起こします。ネイティブPDFは各単語を別々のテキストオブジェクトとして保存することが多いです。これにより単語の境界をまたぐエンティティ検出が中断されます。多段組レイアウトは分析前に読み取り順序の再構築が必要です。

Word (DOCX)

DOCXファイルはXMLにテキストを保存します。しかしヘッダー、フッター、コメント、変更履歴、テキストボックスにも存在します。ページヘッダーのレターヘッドアドレスはPIIです。ほとんどのツールはこれを見逃します。変更履歴には削除されたPIIが含まれていることがあります。そのテキストはレンダリングされた表示では見えませんが、ファイルには存在します。

Excel (XLSX)

Excelは何百もの列と何千もの行の任意のセルにPIIを保存します。「SSN」や「Email」などの列ヘッダーは、NERモデルが生のテキストから得られないコンテキストを提供します。日付やSSNは数値として保存されることが多いです。「マネージャーメモ」などの自由テキストフィールドには非構造化PIIが含まれます。列ベースのツールはこれらのフィールドをスキップします。

CSV

CSVにはExcelの構造がありません。「メモ」列の自由テキストフィールドはPIIと他のコンテンツが混在します。エンコーディングの問題(UTF-8対Latin-1)により、欧州の名前や住所の非ASCII文字で検出が失敗します。

JSON

ネストされたJSONはPIIを深くに埋め込みます(user.address.street.line1)。配列はイテレーションが必要です。同じフィールド名が異なるオブジェクトで異なるデータ型を持つことがあります。良い検出にはスキーマの認識とコンテンツ分析の両方が必要です。

不整合は法的リスクです

GDPRのDSARの具体的なシナリオを見てみましょう。

データ主体が自分に関するすべての個人データを要求します。コンプライアンスチームはこれらのファイルを見つけます。

  • Word文書3件(契約書、往来書簡)
  • PDF文書2件(請求書、サポート記録)
  • Excelスプレッドシート1件(顧客アカウントデータ)
  • CSVエクスポート1件(システムアクセスログ)

PDFにはツールA。WordにはツールB。XLSXにはマクロ。CSVには手動レビュー。各ツールはエンティティのカバレッジが異なります。

データ主体は匿名化されたパッケージを受け取ります。Excelの「マネージャーメモ」列は処理されていませんでした。Wordのレターヘッドアドレスは見逃されていました。どちらもデータ主体が匿名化を要求したPIIを含んでいます。

GDPRの第15条(アクセス権)または第17条(削除権)の下で、これは不完全なDSAR回答です。データ主体または規制当局が欠陥を発見した場合、不整合なツールの使用は記録された原因の一つとなります。

一貫した基準の必要性

堅固なDSARコンプライアンスは、どのPIIタイプを匿名化するかを列挙するだけではありません。回答セットのすべてのフォーマットに同じ基準が必要です。

それはつまり:

  • Word、PDF、Excel、CSV、JSONで同じエンティティタイプを確認する。
  • すべてのファイルに同じ信頼度しきい値を適用する。
  • 同じ置換トークンを使用する。「田中一郎」が3つの文書に現れる場合、一つのトークンがすべての3つでその名前を置換する。
  • すべてのフォーマットをカバーする一つの監査証跡。

単一プラットフォームのソリューションはプリセットを通じてこれを可能にします。一つの「DSAR EU Individuals」プリセットが同じ32種類のエンティティタイプを確認します。PDF契約書、Excelレコード、CSVログで実行されます。同じエンジンがすべてを処理します。

バッチジョブでのプリセットの動作については、GDPRのDSARバッチ処理のガイドをご覧ください。

混在フォーマットセットのバッチ処理

大規模なDSARコンプライアンスは、混在フォーマットのフォルダを一つの単位として処理することを意味します。

入力: 一人のデータ主体に関するすべてのデータを含む15ファイルのフォルダ(PDF、DOCX、XLSX、CSV)。

処理ステップ:

  • 各ファイルのフォーマットを検出する。
  • 適切なパーサーを適用する。PDFテキスト抽出。DOCX XML解析。XLSXセルのイテレーション。CSVフィールド解析。
  • すべてのファイルから抽出されたテキストに同じNLPパイプラインを実行する。
  • バッチ内のすべてのファイルに同じプリセットを適用する。
  • 共有トークンプールを使用する。15ファイル全体で同じ名前が同じ置換トークンを受け取る。

出力:

  • 元のフォーマットで15ファイルすべての匿名化バージョン。
  • クロスフォーマット監査レポート一件。検出されたすべてのエンティティ、そのソースドキュメント、信頼度スコア、実施されたアクションを示します。

その監査レポートがコンプライアンス文書です。15ファイルすべてが同じ基準で処理されたことを証明します。DPA監査では、断片的なツールよりはるかに強力です。

関連:AIデータ漏洩に対するリアルタイムPII防御

統合パイプラインの既知の制限

フォーマットの統合は断片化を解決します。しかし独自の制約をもたらします。

変換の忠実度: DOCXを処理フォーマットに変換して戻すと、変更履歴が失われたり、埋め込みオブジェクトが破損したりする可能性があります。法的文書は処理後に追加の検証が必要です。

フォーマット別のメンテナンス: 構造化CSVのエンティティ認識機能はスキャンされたフォームのものとは異なります。「統合された」パイプラインでもフォーマット別の前処理が必要です。その前処理はフォーマットの進化に合わせて更新が必要です。

一般的でないフォーマットの精度: ほとんどのNLPモデルはWebテキストと一般的なオフィス文書でトレーニングされています。レガシーフォーマット(古いEDIファイル、カスタムXMLスキーマ、CADメタデータ)はベンチマークが示すよりも検出精度が低くなることがよくあります。

再構築できないフォーマット: 一部のPDFタイプと画像のみのファイルはその場で匿名化できません。ビジュアル編集が必要です。ビジュアル編集は機械可読構造を破壊します。匿名化後の検索やインデックス作成が必要な場合、これでは不十分な場合があります。

実践的なDSARワークフロー

定期的なDSARボリュームを持つコンプライアンスチームの場合:

  1. データ主体のすべての文書を収集する
  2. DSARバッチを作成する(フォーマットに関係なくすべてのファイルをドラッグする)
  3. 「DSAR EU Individuals」プリセットを選択する
  4. バッチを実行する
  5. 匿名化された出力と統合監査レポートをダウンロードする
  6. 出力から2〜3件の文書をスポットチェックする
  7. データ主体への回答のために匿名化文書をパッケージ化する
  8. 監査レポートをDSARケースレコードに添付する

ステップ1(手動収集)が主な時間コストです。ステップ2〜8は典型的なバッチで10分以内です。ステップ5の監査レポートはGDPRの説明責任の原則を満たします。


anonym.legalはDOCX、PDF、XLSX、CSV、JSONを処理します。すべてのファイルは同じプリセットを使用します。一つの監査レポートがバッチ全体をカバーします。

ソース

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.