Zpět na blogPrávní technologie

Past PDF redakce: Proč 'černá skříňka' redakce...

Soubory DOJ Epstein, případ Manafort a úniky NSA sdílejí stejné selhání: kosmetická redakce, která zanechává základní text přístupný.

April 21, 20268 min čtení
PDF redactionlegal redactioncourt filingFOIAdocument security

Soubory DOJ Epstein. Případ Manafort. Úniky NSA. Zprávy vládního kongresu. Všechny sdílely stejné selhání: černý obdélník nakreslený přes text v PDF souboru, přičemž původní text zůstal přístupný pod ním.

„Černá skříňka" redakce selhává, protože PDF je vrstvený formát — vizuální vrstva (kde se věci zdají být) je oddělena od datové vrstvy (kde je text skutečně uložen). Nakreslení černého obdélníku přes text v PDF modifikuje vizuální vrstvu bez ovlivnění datové vrstvy.

Jak PDF ukládá text

PDF dokumenty ukládají text jako strukturovaná data v datové vrstvě souboru. Vizuální vrstva — jak stránka vypadá — je rendered ze strukturovaných dat. Vrstva anotací — komentáře, záložky, formulářová pole — leží na vrcholu.

Při nakreslení černého obdélníku přes text v standardním PDF editoru (Adobe Acrobat Standard, Preview, LibreOffice Draw), přidáváte anotační vrstvu. Anotace je černý obdélník, který skrývá text vizuálně. Původní text v datové vrstvě zůstává nedotčen.

Kdokoli, kdo obdržel "redaktovaný" PDF, může:

  • Vybrat veškerý text (Ctrl+A) a kopírovat do textového editoru — odhalující původní text
  • Otevřít PDF v textovém editoru zobrazujícím surová data PDF
  • Odstranit anotační vrstvu v sofistikovaném PDF editoru — odhalující veškerý původní obsah

Správná redakce: Odstraňování textu z datové vrstvy

Správná redakce PDF vyžaduje odstraňování nebo přepsání textu v datové vrstvě, ne přidávání vizuální překrytí. Správná redakce:

  1. Parsuje strukturu PDF k identifikaci datové vrstvy
  2. Lokalizuje cílový text v datové vrstvě
  3. Odstraňuje nebo přepisuje cílový text s náhradními znaky
  4. Znovu renderuje vizuální vrstvu bez cílového textu
  5. Opsaná vizuální vrstva a datová vrstva jsou konzistentní

Výsledek: text odstraněn z PDF na vrstvě dat. Výběr veškerého textu neodhalí redaktovaný obsah. Soubor PDF sám neobsahuje citlivý text.

Redakce s přímou detekcí PII

Moderní redakční pracovní postupy integrují PII detekci s redakcí datové vrstvy:

  1. Parsujte PDF pro extrakci textového obsahu z datové vrstvy
  2. Spusťte detekci PII na extrahovaném textu (jména, SSN, e-maily, telefonní čísla)
  3. Pro každou detekovanou entitu PII: lokalizujte polohu v PDF datové vrstvě
  4. Proveďte redakci datové vrstvy — odstraňte nebo přepište cílový text
  5. Re-render PDF s prázdnými nebo nahrazenými redigovanými oblastmi

Tento přístup eliminuje lidskou chybu při identifikaci redakčních cílů a zajišťuje, že redakce je aplikována na správné úrovni.

Případ advokátní kanceláře: e-Discovery redakce

Advokátní kancelář produkující dokumenty v soudním sporu musí redaktovat privilegovaná sdělení a třetí strany PII. Standardní pracovní postup:

  • Advokáti označí dokumenty pro redakci v systému revize
  • Podpůrný personál aplikuje redakce v nástroji jako Adobe Acrobat Pro
  • Redaktované dokumenty jsou produkovány protistranám

Riziko: podpůrný personál aplikující vizuální překrytí místo redakce datové vrstvy může výsledkem být "redaktované" dokumenty, které odhalují privilegovanou komunikaci protistranám a soudům — zdánlivě vzdání se přivilegia a profesionálního selhání.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.