By · Last updated 2026-06-05

Zpět na blogPrávní technologie

E-Discovery smíšených formátů: Mezera v souladu s předpisy

Produkce e-discovery a GDPR DSAR zahrnují PDF, Wordové dokumenty, Excel a JSON exporty. Používání různých nástrojů pro každý formát vytváří mezery konzistence, které DPA audity odhalují.

June 5, 20267 min čtení
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Realita fragmentace formátů

Dorazí žádost o produkci právních dokumentů. Produkce zahrnuje:

  • PDF smlouvy ze systému správy dokumentů
  • Wordové dokumenty z právního přezkumu
  • Excelové tabulky z financí
  • CSV exporty z CRM
  • JSON logy z auditní stopy API

Pět formátů. Aktuální sada nástrojů firmy: Adobe Acrobat pro redigování PDF, Wordové makro pro DOCX, Excelova vestavěná funkce „najít a nahradit” pro XLSX, ruční přezkum pro CSV a nic pro JSON.

To není neobvyklé. Zpráva Everlaw o e-discovery z roku 2025 identifikuje fragmentaci formátů jako hlavní operační výzvu, přičemž právní týmy používají v průměru 3,2 různých nástrojů pro produkce dokumentů zahrnující smíšené formáty. Operační náklady jsou značné. Compliance riziko je ještě závažnější.

Proč fragmentace nástrojů vytváří compliance mezery

Používání různých nástrojů pro různé formáty vytváří tři compliance zranitelnosti:

Nekonzistence pokrytí entit: Vestavěné redigování Adobe Acrobatu vyhledává explicitní textové řetězce — neprovozuje detekci entit. PDF vytvořené s redigováním Acrobatu rediguje pouze textové řetězce, které operátor explicitně vyhledá. Wordové makro detekuje pouze typy entit, na něž bylo naprogramováno (zpravidla jména a e-maily, nikoli všech 285+ typů entit). Excelova funkce najít a nahradit nezachytí nic, co nebylo explicitně zadáno. Stejné rodné číslo v PDF smlouvě a Excelové tabulce může být zpracováváno dvěma různými nástroji se dvěma různými standardy detekce.

Fragmentace auditní stopy: Každý nástroj produkuje vlastní protokol (nebo žádný protokol vůbec). Při žádosti o přístup k datům GDPR, kdy DPA ptá „prokažte, že veškerá osobní data o tomto jednotlivci byla identifikována a náležitě zpracována,” nejsou oddělené auditní protokoly ze tří různých nástrojů pokrývající různé části sady dokumentů přesvědčivým compliance narativem.

Drift konfigurace: Různé nástroje mají různé konfigurace. Standard redigování PDF konfigurovaný týmem legal ops před šesti měsíci nemusí odpovídat nastavení Wordového makra aktualizovaného jiným členem týmu minulý týden. Nekonzistence je neviditelná, dokud nezpůsobí produkční chybu.

Požadavek konzistence není teoretický. Soudní sankce za chyby v produkci e-discovery konkrétně řeší problém nekonzistence: aplikování různých standardů na různé typy dokumentů ve stejné produkci je selháním systematického procesu, který soudy očekávají.

Požadavek konzistence DSAR

GDPR DSAR mají explicitní požadavek konzistence zakotvený v právním standardu. Čl. 15 vyžaduje, aby subjekt dat obdržel informace o „veškerých” osobních datech, která jsou uchovávána, nikoli „veškerých osobních datech v PDF a většině osobních dat ve Wordových dokumentech.”

Pokyny ICO k DSAR jsou explicitní: organizace musí uplatňovat systematický přístup k identifikaci veškerých osobních dat uchovávaných pro subjekt dat, napříč všemi systémy a formáty. Systematický přístup, ze své definice, vyžaduje konzistentní metodiku — nikoli nástroje specifické pro formáty s různými standardy.

Při šetřeních DPA po stížnosti DSAR auditor položí tyto otázky:

  1. Jaký proces byl použit k identifikaci veškerých osobních dat?
  2. Jaké nástroje zpracovávaly které typy dokumentů?
  3. Jaké typy entit byly prohledávány v každém formátu?
  4. Jaká auditní stopa dokumentuje úplnost odpovědi?

„Použili jsme Adobe pro PDF, makro pro Word a Excelovu funkci hledání pro tabulky, ale nemáme konkrétní protokoly typů entit pro každý formát” není uspokojivá odpověď na otázky 3 a 4.

Výhoda unifikovaného enginu

Unifikovaný zpracovávací engine zvládá všechny formáty se stejnou detekční logikou, což umožňuje:

Konfigurační předvolby, které se uplatňují jednotně: Předvolba ‚DSAR EU Fyzická osoba' konfigurovaná s 32 typy entit zpracovává PDF, DOCX, XLSX a CSV ze stejného DSAR s identickým pokrytím entit. Rodné číslo v Excelové tabulce je kontrolováno se stejným prahovým hodnotám spolehlivosti jako rodné číslo v PDF smlouvě.

Jediná auditní stopa: Jeden zpracovávací protokol pokrývající všechny soubory v dávce bez ohledu na formát. Auditní zpráva zobrazuje: název souboru, typ souboru, detekované entity, hodnoty spolehlivosti, provedená opatření — pro každý soubor v produkční sadě. Jediný dokument poskytuje compliance důkazy pro celou produkci.

Referenční integrita napříč formáty: Pokud se ‚Jana Nováková' vyskytuje v PDF smlouvě, Wordovém záznamu korespondence a Excelové tabulce účtu, konzistentní pseudonymizace napříč všemi třemi formáty může nahradit její jméno stejným tokenem (OSOBA_0001) ve všech třech — což subjektu dat umožňuje sledovat vlastní záznam napříč produkcí.

Dávkové zpracování smíšených formátů: Vložte 15 souborů různých formátů do jediné dávky. Zpracujte s jednou předvolbou. Obdržíte 15 anonymizovaných výstupů a jednu konsolidovanou auditní zprávu. Operační pracovní postup je výrazně jednodušší než správa tří samostatných pracovních postupů nástrojů.

Aplikace federální agentury FOIA

Americká vláda v roce 2025 prosazuje automatizaci FOIA a konkrétně cituje zpracování více formátů jako klíčový požadavek. Federální agentury dostávají žádosti FOIA zahrnující záznamy uložené ve všech představitelných formátech — exporty starších mainframů v textu s pevnou šířkou, Wordové dokumenty z moderních kolaborativních systémů, naskenované PDF z papírových archivů a exporty databází v CSV a JSON.

DOJ a HHS pilotovaly automatizované systémy redigování konkrétně proto, že ruční zpracování více formátů se nehodí na jejich objemy žádostí. Základní požadavek pro tyto systémy: konzistentní uplatňování stejných standardů výjimek napříč všemi formáty, s dokumentovanou auditní stopou.

Pro organizace mimo federální vládu čelící podobným compliance požadavkům ve více formátech platí stejný princip: konzistence zacházení napříč formáty je základem obhajitelné compliance dokumentace.

Implementace pro DSAR praxi advokátní kanceláře

Middle-size advokátní kancelář zpracovávající GDPR DSAR pro podnikové klienty implementovala unifikované zpracování formátů pro svůj pracovní postup odpovědí DSAR:

Před:

  • PDF smlouvy: Adobe Acrobat (ruční vyhledávání textu)
  • DOCX korespondence: Wordové makro (pouze jméno + e-mail)
  • XLSX záznamy účtů: Excelova funkce najít a nahradit (ruční zadávání)
  • CSV exporty: Ruční přezkum
  • Čas zpracování na DSAR: 8–12 hodin
  • Typy entit konzistentně kontrolované napříč všemi formáty: 2–3 (jméno, e-mail)

Po (unifikovaný engine, dávkové zpracování):

  • Všechny formáty: jediná dávka s předvolbou ‚DSAR EU Fyzická osoba'
  • 32 typů entit konzistentně kontrolovaných napříč všemi formáty
  • Čas zpracování na DSAR: 45 minut (včetně přezkumu výstupu)
  • Jediná auditní zpráva na DSAR pro schválení DPO
  • Typy entit konzistentně kontrolované napříč všemi formáty: 32

Compliance zlepšení: kancelář nyní může prokázat konzistentní pokrytí entit napříč všemi typy dokumentů v produkci DSAR, s jediným auditním dokumentem na odpověď. Čas 8–12 hodin na DSAR klesl na méně než 1 hodinu — což kanceláři umožňuje nabízet DSAR compliance jako škálovatelnou službu.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.