By · Last updated 2026-06-05

Zpět na blogPrávní technologie

Past PDF redigování: Data stále dostupná

Spisy Epsteinovy kauzy, případ Manafort a úniky NSA sdílejí stejný problém: kosmetické redigování, které nechá podkladový text volně extrahovatelný.

June 5, 20268 min čtení
PDF redactionlegal redactioncourt filingFOIAdocument security

Nejnebezpečnější slovo v zabezpečení právních dokumentů: „Redigováno”

Když je soudní podání označeno razítkem „REDIGOVÁNO”, protistrana, novináři i veřejnost předpokládají, že informace jsou pryč. Když je tento předpoklad mylný — když lze „redigovaný” text extrahovat pomocí kopírování a vkládání nebo extrakcí textové vrstvy PDF — sahají důsledky od odborných sankcí až po ohrožení národní bezpečnosti.

Kosmetické redigování — překrývání PDFs vizuálními vrstvami bez odstranění podkladového textu — způsobilo řadu velmi sledovaných selhání, která dokládají, že nejde o hypotetické riziko.

Spisy DOJ v kauze Epstein (prosinec 2025): Soudní dokumenty podané s černými obdélníky přes citlivý text. Podkladový text byl extrahovatelný kopírováním a vkládáním. Novináři a veřejnost to zjistili v řádu hodin od podání. Únik zahrnoval jména a podrobnosti, o jejichž utajení federální žalobci usilovali.

Kauza Paul Manafort (leden 2019): Obhajoba podala redigované soudní dokumenty v Muellerově vyšetřování pomocí funkce zvýraznění textu ve Wordu — ta vytváří vizuální černý pruh, aniž odstraní podkladový text. Obsah se okamžitě odhalil kopírováním a vkládáním. Soud to nijak nezamlouvalo.

NSA a dokumenty zpravodajské komunity (opakované incidenty): Desetiletí „redigovaných” PDF vydání s extrahovatelným textem, opakovaně odhalovaných novináři a výzkumníky. Dohledový výbor zpravodajské komunity vydal k tomuto selhání již několik metodických pokynů.

Vzorec je konzistentní: někdo použije vizuální redigování, podá dokument v přesvědčení, že je zabezpečen, a podkladový text je objeven — někdy okamžitě, jindy až o léta později při opětovném přezkoumání dokumentů.

Jak kosmetické redigování funguje (a selhává)

Pochopení příčin selhání kosmetického redigování vyžaduje porozumět struktuře PDF.

Dokument PDF obsahuje několik vrstev:

Textová vrstva: Skutečný textový obsah uložený jako znaky se souřadnicemi, písmem a metadaty formátování. Tuto vrstvu zpřístupňují čtečky obrazovky, funkce kopírování a vkládání i nástroje pro extrakci textu.

Vrstva vykreslování: Instrukce pro vizuální zobrazení dokumentu — včetně obrázků, grafiky a barevných obdélníků (černé rámečky používané jako překryvné vrstvy redigování).

Vrstva metadat: Vlastnosti dokumentu, informace o autorovi, časová razítka vytvoření, historie revizí.

Kosmetické redigování přidá do vrstvy vykreslování obdélník vyplněný černou barvou. Obdélník vizuálně překryje text. Textová vrstva zůstane nezměněna. Kdokoli použije „Vybrat vše” → kopírovat → vložit do textového editoru, získá celý text, včetně textu „pod” černým obdélníkem.

Nástroje, které produkují kosmetické redigování:

  • Kreslicí nástroje Adobe Acrobat (při kreslení obdélníků, nikoli při použití funkce Redigovat)
  • Sledování změn v Microsoft Wordu (smazání v červeném textu, která jsou „přijata”, ale jejichž historie přetrvává v souboru)
  • Vytvoření PDF na základě obrázků (bezpečné pouze v případě, že je textová vrstva odstraněna, nikoli pokud jsou obrázky přidány přes ni)
  • Nástroje pro anotaci PDF v prohlížeči (přidání černého zvýraznění v prohlížečových prohlížečích PDF textovou vrstvu neupravuje)

Co skutečné redigování PDF vyžaduje

Skutečné redigování musí informace odstranit z textové vrstvy, nikoli jen z vrstvy vykreslování. Jediný způsob, jak ověřit, že redigování je skutečné, je extrahovat text z „redigovaného” dokumentu a potvrdit, že cílový obsah chybí.

Protokol ověření redigování používaný podatelenami soudů a programy vydávání dokumentů zpravodajské komunity:

  1. Použijte redigování pomocí nástrojů pro úpravu textové vrstvy
  2. Exportujte redigované PDF
  3. Spusťte extrakci textu z exportovaného PDF
  4. Potvrďte, že redigovaný obsah v extrahovaném textu chybí
  5. Zkontrolujte vrstvu metadat na zbytková data
  6. Odešlete ověřený dokument

Krok 3 je kritická kontrola, při níž kosmetické redigování selhává: extrakce textu z kosmeticky redigovaného PDF vrátí celý text. Extrakce textu z genuinně redigovaného PDF vrátí pro redigované oblasti prázdné řetězce nebo náhradní text.

Problém metadat

Kromě textové vrstvy vytváří metadata PDF sekundární způsob selhání redigování.

Metadata PDF mohou obsahovat:

  • Jméno autora (osoba, která dokument vytvořila, zpravidla advokát nebo správce spisu)
  • Název organizace (advokátní kancelář nebo státní úřad)
  • Předchozí verze dokumentu zobrazující obsah před redigováním
  • Historii revizí s komentáři nebo sledovanými změnami
  • Vložené miniatury, které mohou ukazovat obsah dokumentu před redigováním

Pokyn NSA z roku 2015 „Redigování s jistotou” se metadatům věnuje výslovně: „Redigování s jistotou vyžaduje, aby byla rovněž kontrolována metadata.”

Pro soudní podání je riziko metadat značné: dokument zdánlivě anonymní strany může mít metadata odhalující totožnost autora. Redigovaný dokument může obsahovat vložené miniatury zobrazující původní verzi před redigováním.

Skutečné nástroje pro redigování odstraňují nebo dezinfikují metadata jako součást procesu redigování. Nástroje pro kosmetické redigování metadata zpravidla neupravují.

Právní důsledky selhání redigování

Odborné a právní důsledky selhání redigování závisejí na kontextu, ale precedent není pro ty, kdo se spoléhají na kosmetické redigování, příznivý:

Kontext federálního soudu: Pravidlo 5.2(e) Federálních procesních pravidel občanského soudního řízení vyžaduje, aby podané dokumenty byly redigovány z konkrétních osobních identifikátorů. Soudy ukládaly peněžní sankce, omezení podání a postoupení k disciplinárním orgánům advokátní komory za selhání redigování.

Kontext FOIA: Zákon o svobodě přístupu k informacím vyžaduje správné použití konkrétních výjimek z redigování. Úřady, které aplikovaly kosmetické redigování na obsah chráněný výjimkami FOIA, přičemž umožnily elektronickou extrakci tohoto obsahu, čelily úspěšným soudním sporům na základě FOIA požadujícím skutečné zpřístupnění.

Kontext zpravodajství a národní bezpečnosti: Kromě politické trapnosti zveřejněných zpravodajských operací čelí osoby identifikované prostřednictvím selhání redigování zvýšenému bezpečnostnímu riziku. Zákon o reformě zpravodajství a prevenci terorismu zavedl zvláštní odpovědnost za selhání v zabezpečení dokumentů.

Ochrana osobních údajů (GDPR/HIPAA): U osobních údajů je selhání redigování umožňující extrakci PII událostí narušení dat vyžadující oznámení podle čl. 33 GDPR a pravidla HIPAA pro oznamování narušení.

Sestavení protokolu ověření redigování

Pro jakoukoli organizaci podávající dokumenty s redigovanými informacemi eliminuje jednoduchý ověřovací protokol způsob selhání kosmetického redigování:

Kontrolní seznam před podáním:

  1. Aplikujte redigování pomocí nástroje pro úpravu textové vrstvy (nikoli anotace/překrytí)
  2. Exportujte do nového PDF
  3. Otevřete exportované PDF v novém prohlížeči bez přístupu k originálu
  4. Vybrat vše → Kopírovat → Vložit do prostého textového editoru
  5. Vyhledejte libovolnou část očekávaného redigovaného obsahu
  6. Pokud je nalezen: dokument NENÍ genuinně redigován — restartujte se správným nástrojem
  7. Pokud není nalezen: pokračujte kontrolou metadat
  8. Ve vlastnostech PDF zkontrolujte Autora, Tvůrce, Předmět, Klíčová slova na zbytková data
  9. Ověřený dokument je připraven k podání

Tento protokol trvá méně než 5 minut na dokument a poskytuje pozitivní ověření, že redigování je skutečné. Pro prostředí s vysokým objemem lze extrakci textu automatizovat jako dávkovou kontrolu před podáním.

Pět minut strávených ověřením skutečného redigování stojí méně než jedna minuta advokátního času při obhajobě selhání redigování před federálním soudcem.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.