By · Last updated 2026-06-05

ブログに戻るリーガルテック

複合形式 eDiscovery: GDPR準拠

e-discovery(電子証拠開示)プロセスにおける複数形式ファイルのGDPR準拠な処理。法的文書のPII検出。

June 5, 20267 分で読めます
e-discoverymixed formatDSAR compliancelegal redactiondocument production

複数形式のEディスカバリー:コンプライアンスのギャップを埋める

文書制作リクエストが届きます。対象は5つの形式にまたがっています。PDFの契約書、Wordドキュメント、Excelスプレッドシート、CSVエクスポート、JSONログです。形式ごとに異なるツールが必要です。それが問題です。

2025年のEverlawによるEディスカバリーレポートによると、法務チームは複数形式の制作に平均3.2のツールを使用しています。業務コストは高いです。コンプライアンスリスクはさらに高いです。

文書制作の取り扱いについては、法的コンプライアンスの概要セキュリティプラクティスをご覧ください。

ツールの分散がギャップを生む理由

異なるツールは異なる基準を意味します。3つの脆弱性が生じます。

ツールによってエンティティのカバレッジが異なります。 Adobe Acrobatは手動で入力したテキスト文字列を検索します。自動でエンティティを検出しません。Wordマクロは名前やメールアドレスを捕捉できます。おそらく280以上の他のエンティティタイプを見落としています。ExcelのFind-and-Replaceは入力された内容しか見つけません。PDFとExcelファイルで同じ社会保障番号が、異なるツールにより異なる扱いを受ける可能性があります。

監査証跡が分断されます。 各ツールは独自のアクションを記録します—または何も記録しません。データ保護当局がすべての個人データがどのように発見・処理されたかを尋ねることがあります。3つのツールから得た3つの別々のログは弱い回答です。

設定が時間とともに乖離します。 6ヶ月前に設定したPDF編集ルールは、先週更新したWordマクロの設定と一致しない可能性があります。制作エラーが明らかにするまで、そのギャップは見えません。

裁判所はこの問題を取り上げています。Eディスカバリーエラーに対する制裁は、同一の制作において文書タイプ間で一貫性のない基準を適用したことを理由に言及されてきました。裁判所は体系的なプロセスを期待します。形式ごとのツールはそれに反します。

DSARの一貫性要件

GDPRのDSARには、法律に組み込まれた一貫性ルールがあります。

第15条は、データ主体が保持されているすべての個人データに関する情報を受け取ることを要求します。PDFのすべてのデータとWordドキュメントのほとんどではありません。すべてです。

ICOのDSARガイダンスはこの点について明確です。組織はすべてのシステムと形式にわたって体系的なアプローチを適用しなければなりません。一貫した方法論が必要です。異なる基準を持つ形式ごとのツールはこの要件を満たしません。

DPAがDSAR苦情を調査するとき、4つの質問が浮かびます:

  1. すべての個人データを見つけたプロセスは何ですか?
  2. どのツールがどの文書タイプを処理しましたか?
  3. 各形式でどのエンティティタイプが検索されましたか?
  4. 完全性を証明する監査証跡は何ですか?

別々のログを持つ別々のツールは、質問3と4にきれいに答えられません。

統合エンジンの優位性

統合エンジンはすべての形式に同じ検出ロジックを適用します。4つのメリットが生じます。

一貫したエンティティのカバレッジ。 32のエンティティタイプを持つプリセットは、PDF、DOCX、XLSX、CSVを同じ方法で処理します。ExcelのSSNはPDFのSSNと同じ信頼度閾値を受け取ります。

1つの監査証跡。 1つのログがバッチ内のすべてのファイルをカバーします。ファイル名、タイプ、検出されたエンティティ、信頼度の値、取られたアクションを表示します。1つの文書が制作全体のコンプライアンスを証明します。

参照整合性。 「山田太郎」がPDF契約書、Word書簡、Excelレコードに登場するとします。同じトークン—PERSON_0001—が3つすべてで名前を置き換えます。データ主体は制作全体にわたって自分のレコードを追跡できます。

シンプルなワークフロー。 混合形式の15ファイルを1つのバッチに入れます。1つのプリセットを適用します。15の匿名化された出力と1つの監査レポートを取得します。3つの別々のツールワークフローが1つになります。

バッチジョブにプリセットを適用する方法については、GDPRのDSARバッチ処理の規模対応に関するガイドをご覧ください。

連邦FOIA:より大きな規模での同じ問題

米国連邦機関はより高いボリュームで複数形式の課題に直面しています。

FOIAリクエストは、レガシーメインフレームのエクスポート、現代のWordドキュメント、スキャンされたPDFアーカイブ、CSVおよびJSONデータベースエクスポートにまたがります。1つの形式だけを使う機関はありません。

DOJとHHSはどちらも自動化された編集システムをパイロットで試験しました。手動の複数形式処理はリクエストボリュームに対してスケールしません。各パイロットには同じ核心的要件がありました:すべての形式にわたる1つの除外基準。文書化された監査証跡も必要でした。

同じ原則が連邦政府外にも適用されます。複数形式のコンプライアンス義務を持つ組織はすべて同じものが必要です。1つの基準。1つの監査証跡。それが防御可能なコンプライアンス記録の基盤です。

事例研究:法律事務所

中規模の法律事務所が企業クライアントのGDPR DSAR対応を管理していました。

統合前、事務所は4つの異なるツールを使用していました。Adobe AcrobatがPDFを処理しました。WordマクロがDOCXを処理しました—名前とメールアドレスのみ対応。ExcelのFind-and-ReplaceがXLSXを処理しました。CSVエクスポートは手動でレビューされました。各DSARに8〜12時間かかりました。すべての形式で統一された方法で確認されたエンティティタイプは2〜3種類のみでした。

統合後、統合エンジンがすべての形式を1つのバッチで処理しました。プリセット:「DSAR EU Individual」。エンジンはすべての形式で32のエンティティタイプを同じ方法で確認しました。各DSARに1時間未満かかりました。1つの監査レポートがDPOの承認に送られました。

事務所はDSAR制作のすべての文書タイプにわたって一貫したエンティティのカバレッジを証明できるようになりました。1つの監査文書が各回答をカバーします。時間は8〜12時間から1時間未満に短縮されました。これは重要な業務上の変化です。この転換により、DSAR準拠はスケーラブルなサービスとなり、事務所がクライアントに提供できるようになりました。

関連:文書形式の断片化とPIIの匿名化

結論

形式の断片化はコンプライアンスリスクです。異なるツールは異なる基準を意味します。異なる基準は監査ギャップを生みます。監査ギャップは規制リスクをもたらします。

統合エンジンはこれを根本から解決します。1つの検出基準。1つの監査証跡。1つのワークフロー—あらゆる形式に対して。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.