Soubory DOJ Epstein. Případ Manafort. Úniky NSA. Zprávy vládního kongresu. Všechny sdílely stejné selhání: černý obdélník nakreslený přes text v PDF souboru, přičemž původní text zůstal přístupný pod ním.
„Černá skříňka" redakce selhává, protože PDF je vrstvený formát — vizuální vrstva (kde se věci zdají být) je oddělena od datové vrstvy (kde je text skutečně uložen). Nakreslení černého obdélníku přes text v PDF modifikuje vizuální vrstvu bez ovlivnění datové vrstvy.
Jak PDF ukládá text
PDF dokumenty ukládají text jako strukturovaná data v datové vrstvě souboru. Vizuální vrstva — jak stránka vypadá — je rendered ze strukturovaných dat. Vrstva anotací — komentáře, záložky, formulářová pole — leží na vrcholu.
Při nakreslení černého obdélníku přes text v standardním PDF editoru (Adobe Acrobat Standard, Preview, LibreOffice Draw), přidáváte anotační vrstvu. Anotace je černý obdélník, který skrývá text vizuálně. Původní text v datové vrstvě zůstává nedotčen.
Kdokoli, kdo obdržel "redaktovaný" PDF, může:
- Vybrat veškerý text (Ctrl+A) a kopírovat do textového editoru — odhalující původní text
- Otevřít PDF v textovém editoru zobrazujícím surová data PDF
- Odstranit anotační vrstvu v sofistikovaném PDF editoru — odhalující veškerý původní obsah
Správná redakce: Odstraňování textu z datové vrstvy
Správná redakce PDF vyžaduje odstraňování nebo přepsání textu v datové vrstvě, ne přidávání vizuální překrytí. Správná redakce:
- Parsuje strukturu PDF k identifikaci datové vrstvy
- Lokalizuje cílový text v datové vrstvě
- Odstraňuje nebo přepisuje cílový text s náhradními znaky
- Znovu renderuje vizuální vrstvu bez cílového textu
- Opsaná vizuální vrstva a datová vrstva jsou konzistentní
Výsledek: text odstraněn z PDF na vrstvě dat. Výběr veškerého textu neodhalí redaktovaný obsah. Soubor PDF sám neobsahuje citlivý text.
Redakce s přímou detekcí PII
Moderní redakční pracovní postupy integrují PII detekci s redakcí datové vrstvy:
- Parsujte PDF pro extrakci textového obsahu z datové vrstvy
- Spusťte detekci PII na extrahovaném textu (jména, SSN, e-maily, telefonní čísla)
- Pro každou detekovanou entitu PII: lokalizujte polohu v PDF datové vrstvě
- Proveďte redakci datové vrstvy — odstraňte nebo přepište cílový text
- Re-render PDF s prázdnými nebo nahrazenými redigovanými oblastmi
Tento přístup eliminuje lidskou chybu při identifikaci redakčních cílů a zajišťuje, že redakce je aplikována na správné úrovni.
Případ advokátní kanceláře: e-Discovery redakce
Advokátní kancelář produkující dokumenty v soudním sporu musí redaktovat privilegovaná sdělení a třetí strany PII. Standardní pracovní postup:
- Advokáti označí dokumenty pro redakci v systému revize
- Podpůrný personál aplikuje redakce v nástroji jako Adobe Acrobat Pro
- Redaktované dokumenty jsou produkovány protistranám
Riziko: podpůrný personál aplikující vizuální překrytí místo redakce datové vrstvy může výsledkem být "redaktované" dokumenty, které odhalují privilegovanou komunikaci protistranám a soudům — zdánlivě vzdání se přivilegia a profesionálního selhání.
Zdroje: