Realita fragmentace formátů

Dorazí žádost o produkci právních dokumentů. Produkce zahrnuje:

PDF smlouvy ze systému správy dokumentů
Wordové dokumenty z právního přezkumu
Excelové tabulky z financí
CSV exporty z CRM
JSON logy z auditní stopy API

Pět formátů. Aktuální sada nástrojů firmy: Adobe Acrobat pro redigování PDF, Wordové makro pro DOCX, Excelova vestavěná funkce „najít a nahradit” pro XLSX, ruční přezkum pro CSV a nic pro JSON.

To není neobvyklé. Zpráva Everlaw o e-discovery z roku 2025 identifikuje fragmentaci formátů jako hlavní operační výzvu, přičemž právní týmy používají v průměru 3,2 různých nástrojů pro produkce dokumentů zahrnující smíšené formáty. Operační náklady jsou značné. Compliance riziko je ještě závažnější.

Proč fragmentace nástrojů vytváří compliance mezery

Používání různých nástrojů pro různé formáty vytváří tři compliance zranitelnosti:

Nekonzistence pokrytí entit: Vestavěné redigování Adobe Acrobatu vyhledává explicitní textové řetězce — neprovozuje detekci entit. PDF vytvořené s redigováním Acrobatu rediguje pouze textové řetězce, které operátor explicitně vyhledá. Wordové makro detekuje pouze typy entit, na něž bylo naprogramováno (zpravidla jména a e-maily, nikoli všech 285+ typů entit). Excelova funkce najít a nahradit nezachytí nic, co nebylo explicitně zadáno. Stejné rodné číslo v PDF smlouvě a Excelové tabulce může být zpracováváno dvěma různými nástroji se dvěma různými standardy detekce.

Fragmentace auditní stopy: Každý nástroj produkuje vlastní protokol (nebo žádný protokol vůbec). Při žádosti o přístup k datům GDPR, kdy DPA ptá „prokažte, že veškerá osobní data o tomto jednotlivci byla identifikována a náležitě zpracována,” nejsou oddělené auditní protokoly ze tří různých nástrojů pokrývající různé části sady dokumentů přesvědčivým compliance narativem.

Drift konfigurace: Různé nástroje mají různé konfigurace. Standard redigování PDF konfigurovaný týmem legal ops před šesti měsíci nemusí odpovídat nastavení Wordového makra aktualizovaného jiným členem týmu minulý týden. Nekonzistence je neviditelná, dokud nezpůsobí produkční chybu.

Požadavek konzistence není teoretický. Soudní sankce za chyby v produkci e-discovery konkrétně řeší problém nekonzistence: aplikování různých standardů na různé typy dokumentů ve stejné produkci je selháním systematického procesu, který soudy očekávají.

Požadavek konzistence DSAR

GDPR DSAR mají explicitní požadavek konzistence zakotvený v právním standardu. Čl. 15 vyžaduje, aby subjekt dat obdržel informace o „veškerých” osobních datech, která jsou uchovávána, nikoli „veškerých osobních datech v PDF a většině osobních dat ve Wordových dokumentech.”

Pokyny ICO k DSAR jsou explicitní: organizace musí uplatňovat systematický přístup k identifikaci veškerých osobních dat uchovávaných pro subjekt dat, napříč všemi systémy a formáty. Systematický přístup, ze své definice, vyžaduje konzistentní metodiku — nikoli nástroje specifické pro formáty s různými standardy.

Při šetřeních DPA po stížnosti DSAR auditor položí tyto otázky:

Jaký proces byl použit k identifikaci veškerých osobních dat?
Jaké nástroje zpracovávaly které typy dokumentů?
Jaké typy entit byly prohledávány v každém formátu?
Jaká auditní stopa dokumentuje úplnost odpovědi?

„Použili jsme Adobe pro PDF, makro pro Word a Excelovu funkci hledání pro tabulky, ale nemáme konkrétní protokoly typů entit pro každý formát” není uspokojivá odpověď na otázky 3 a 4.

Výhoda unifikovaného enginu

Unifikovaný zpracovávací engine zvládá všechny formáty se stejnou detekční logikou, což umožňuje:

Konfigurační předvolby, které se uplatňují jednotně: Předvolba ‚DSAR EU Fyzická osoba' konfigurovaná s 32 typy entit zpracovává PDF, DOCX, XLSX a CSV ze stejného DSAR s identickým pokrytím entit. Rodné číslo v Excelové tabulce je kontrolováno se stejným prahovým hodnotám spolehlivosti jako rodné číslo v PDF smlouvě.

Jediná auditní stopa: Jeden zpracovávací protokol pokrývající všechny soubory v dávce bez ohledu na formát. Auditní zpráva zobrazuje: název souboru, typ souboru, detekované entity, hodnoty spolehlivosti, provedená opatření — pro každý soubor v produkční sadě. Jediný dokument poskytuje compliance důkazy pro celou produkci.

Referenční integrita napříč formáty: Pokud se ‚Jana Nováková' vyskytuje v PDF smlouvě, Wordovém záznamu korespondence a Excelové tabulce účtu, konzistentní pseudonymizace napříč všemi třemi formáty může nahradit její jméno stejným tokenem (OSOBA_0001) ve všech třech — což subjektu dat umožňuje sledovat vlastní záznam napříč produkcí.

Dávkové zpracování smíšených formátů: Vložte 15 souborů různých formátů do jediné dávky. Zpracujte s jednou předvolbou. Obdržíte 15 anonymizovaných výstupů a jednu konsolidovanou auditní zprávu. Operační pracovní postup je výrazně jednodušší než správa tří samostatných pracovních postupů nástrojů.

Aplikace federální agentury FOIA

Americká vláda v roce 2025 prosazuje automatizaci FOIA a konkrétně cituje zpracování více formátů jako klíčový požadavek. Federální agentury dostávají žádosti FOIA zahrnující záznamy uložené ve všech představitelných formátech — exporty starších mainframů v textu s pevnou šířkou, Wordové dokumenty z moderních kolaborativních systémů, naskenované PDF z papírových archivů a exporty databází v CSV a JSON.

DOJ a HHS pilotovaly automatizované systémy redigování konkrétně proto, že ruční zpracování více formátů se nehodí na jejich objemy žádostí. Základní požadavek pro tyto systémy: konzistentní uplatňování stejných standardů výjimek napříč všemi formáty, s dokumentovanou auditní stopou.

Pro organizace mimo federální vládu čelící podobným compliance požadavkům ve více formátech platí stejný princip: konzistence zacházení napříč formáty je základem obhajitelné compliance dokumentace.

Implementace pro DSAR praxi advokátní kanceláře

Middle-size advokátní kancelář zpracovávající GDPR DSAR pro podnikové klienty implementovala unifikované zpracování formátů pro svůj pracovní postup odpovědí DSAR:

Před:

PDF smlouvy: Adobe Acrobat (ruční vyhledávání textu)
DOCX korespondence: Wordové makro (pouze jméno + e-mail)
XLSX záznamy účtů: Excelova funkce najít a nahradit (ruční zadávání)
CSV exporty: Ruční přezkum
Čas zpracování na DSAR: 8–12 hodin
Typy entit konzistentně kontrolované napříč všemi formáty: 2–3 (jméno, e-mail)

Po (unifikovaný engine, dávkové zpracování):

Všechny formáty: jediná dávka s předvolbou ‚DSAR EU Fyzická osoba'
32 typů entit konzistentně kontrolovaných napříč všemi formáty
Čas zpracování na DSAR: 45 minut (včetně přezkumu výstupu)
Jediná auditní zpráva na DSAR pro schválení DPO
Typy entit konzistentně kontrolované napříč všemi formáty: 32

Compliance zlepšení: kancelář nyní může prokázat konzistentní pokrytí entit napříč všemi typy dokumentů v produkci DSAR, s jediným auditním dokumentem na odpověď. Čas 8–12 hodin na DSAR klesl na méně než 1 hodinu — což kanceláři umožňuje nabízet DSAR compliance jako škálovatelnou službu.

Zdroje:

Související články

Právní technologie

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

E-Discovery smíšených formátů: Mezera v souladu s předpisy

Realita fragmentace formátů

Proč fragmentace nástrojů vytváří compliance mezery

Požadavek konzistence DSAR

Výhoda unifikovaného enginu

Aplikace federální agentury FOIA

Implementace pro DSAR praxi advokátní kanceláře

Související články

Právní PII: Detekce privilegovaných informací

Automatizovaná detekce PII snižuje náklady na e-discovery

Anonymní HR průzkumy s reverzibilní anonymizací

Připraveni chránit svá data?

E-Discovery smíšených formátů: Mezera v souladu s předpisy

Realita fragmentace formátů

Proč fragmentace nástrojů vytváří compliance mezery

Požadavek konzistence DSAR

Výhoda unifikovaného enginu

Aplikace federální agentury FOIA

Implementace pro DSAR praxi advokátní kanceláře

Související články

Právní PII: Detekce privilegovaných informací

Automatizovaná detekce PII snižuje náklady na e-discovery

Anonymní HR průzkumy s reverzibilní anonymizací

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow