Realita fragmentace formátů
Přichází žádost o právní produkci dokumentů. Produkce zahrnuje:
- PDF smlouvy ze systému správy dokumentů
- Word dokumenty z právního přezkumu
- Excel tabulky z financí
- CSV exporty z CRM
- JSON záznamy z auditního záznamu API
Pět formátů. Aktuální sada nástrojů firmy: Adobe Acrobat pro redakci PDF, makro Word pro DOCX, vestavěná funkce „najít a nahradit" Excelu pro XLSX, manuální přezkum pro CSV a nic pro JSON.
Toto není neobvyklé. Zpráva Everlaw e-discovery z roku 2025 identifikuje fragmentaci formátů jako hlavní operační výzvu, přičemž 67 % týmů uvádí, že používají tři nebo více oddělených nástrojů pro různé formáty dokumentů v rámci jediné produkce.
Co soudy a DPA hledají
V produkci e-discovery
Federální pravidla civilního řízení (FRCP) pravidlo 26(g) vyžaduje, aby protistraní advokát certifikoval, že odpovědi na discovery jsou kompletní a správné. Pokud jsou PII redakce nekonzistentní napříč formáty — jméno redacted v PDF, ale ne v odpovídajícím CSV záznamu — soud to vidí jako:
- Neúplná certifikace
- Potenciální spoilage (přestože úmysl byl opačný)
- Základ pro sankce nebo adverse inference instruktáž
V GDPR DSAR
GDPR článek 15 vyžaduje, aby organizace poskytly přístup k veškerým osobním datům. Pokud DSAR odpověď zahrnuje zákaznická data z CRM (CSV), záznamy e-mailů (MSG), finanční záznamy (XLSX) a záznamy smluv (PDF) — všechny zpracovány různými nástroji s různými prahy anonymizace — pak:
- Různé pole jmen zachyceno (nebo nezachyceno) napříč systémy
- Auditní záznam zobrazuje čtyři různé nástroje použité pro jednu žádost
- DPA auditor vidí nekonzistenci jako systémové selhání řízení
Konzistentní anonymizační standard napříč formáty
Obhajitelná DSAR nebo produkce e-discovery vyžaduje:
1. Stejný engine napříč formáty Stejné modely NLP, stejné prahové hodnoty, stejná konfigurace entit — pro PDF, Word, Excel, CSV a JSON.
2. Jednotný auditní záznam Každý redakovaný soubor zaznamenán ve stejném systému: formát souboru, entity detekované, metoda anonymizace, datum/čas, verze nástroje.
3. Konzistentní nakládání s entitami
Pokud je „Jan Novák" v PDF anonymizován jako [JMÉNO], pak „Jan Novák" v odpovídajícím XLSX záznamu musí být anonymizován identicky.
4. Exportovatelná dokumentace Záznamy zpracování v formátu přijatelném pro DPA nebo soud (XLSX, PDF nebo JSON).
Schopnosti formátu anonym.legal
| Formát | Zpracování | Entity pokrytí |
|---|---|---|
| Extrakce text, strukturovaná detekce | Plná 285+ entit | |
| DOCX/DOC | Nativní extrakce textu | Plná 285+ entit |
| XLSX/CSV | Analýza sloupec-po-sloupci | Plná 285+ entit |
| JSON | Rekurzivní zpracování polí | Plná 285+ entit |
| TXT | Přímé zpracování | Plná 285+ entit |
Jeden auditní záznam, konzistentní pokrytí entit, identické anonymizační výsledky — bez ohledu na formát souboru.
Zdroje: FRCP pravidlo 26(g) · GDPR článek 15 — právo přístupu · Zpráva Everlaw State of E-Discovery 2025