Zpět na blogPrávní technologie

Jedna produkce discovery, sedm formátů souborů...

Produkce e-discovery a GDPR DSAR zahrnují PDF, Word dokumenty, Excel a JSON exporty.

April 21, 20267 min čtení
e-discoverymixed formatDSAR compliancelegal redactiondocument production

Realita fragmentace formátů

Přichází žádost o právní produkci dokumentů. Produkce zahrnuje:

  • PDF smlouvy ze systému správy dokumentů
  • Word dokumenty z právního přezkumu
  • Excel tabulky z financí
  • CSV exporty z CRM
  • JSON záznamy z auditního záznamu API

Pět formátů. Aktuální sada nástrojů firmy: Adobe Acrobat pro redakci PDF, makro Word pro DOCX, vestavěná funkce „najít a nahradit" Excelu pro XLSX, manuální přezkum pro CSV a nic pro JSON.

Toto není neobvyklé. Zpráva Everlaw e-discovery z roku 2025 identifikuje fragmentaci formátů jako hlavní operační výzvu, přičemž 67 % týmů uvádí, že používají tři nebo více oddělených nástrojů pro různé formáty dokumentů v rámci jediné produkce.

Co soudy a DPA hledají

V produkci e-discovery

Federální pravidla civilního řízení (FRCP) pravidlo 26(g) vyžaduje, aby protistraní advokát certifikoval, že odpovědi na discovery jsou kompletní a správné. Pokud jsou PII redakce nekonzistentní napříč formáty — jméno redacted v PDF, ale ne v odpovídajícím CSV záznamu — soud to vidí jako:

  • Neúplná certifikace
  • Potenciální spoilage (přestože úmysl byl opačný)
  • Základ pro sankce nebo adverse inference instruktáž

V GDPR DSAR

GDPR článek 15 vyžaduje, aby organizace poskytly přístup k veškerým osobním datům. Pokud DSAR odpověď zahrnuje zákaznická data z CRM (CSV), záznamy e-mailů (MSG), finanční záznamy (XLSX) a záznamy smluv (PDF) — všechny zpracovány různými nástroji s různými prahy anonymizace — pak:

  • Různé pole jmen zachyceno (nebo nezachyceno) napříč systémy
  • Auditní záznam zobrazuje čtyři různé nástroje použité pro jednu žádost
  • DPA auditor vidí nekonzistenci jako systémové selhání řízení

Konzistentní anonymizační standard napříč formáty

Obhajitelná DSAR nebo produkce e-discovery vyžaduje:

1. Stejný engine napříč formáty Stejné modely NLP, stejné prahové hodnoty, stejná konfigurace entit — pro PDF, Word, Excel, CSV a JSON.

2. Jednotný auditní záznam Každý redakovaný soubor zaznamenán ve stejném systému: formát souboru, entity detekované, metoda anonymizace, datum/čas, verze nástroje.

3. Konzistentní nakládání s entitami Pokud je „Jan Novák" v PDF anonymizován jako [JMÉNO], pak „Jan Novák" v odpovídajícím XLSX záznamu musí být anonymizován identicky.

4. Exportovatelná dokumentace Záznamy zpracování v formátu přijatelném pro DPA nebo soud (XLSX, PDF nebo JSON).

Schopnosti formátu anonym.legal

FormátZpracováníEntity pokrytí
PDFExtrakce text, strukturovaná detekcePlná 285+ entit
DOCX/DOCNativní extrakce textuPlná 285+ entit
XLSX/CSVAnalýza sloupec-po-sloupciPlná 285+ entit
JSONRekurzivní zpracování políPlná 285+ entit
TXTPřímé zpracováníPlná 285+ entit

Jeden auditní záznam, konzistentní pokrytí entit, identické anonymizační výsledky — bez ohledu na formát souboru.

Zdroje: FRCP pravidlo 26(g) · GDPR článek 15 — právo přístupu · Zpráva Everlaw State of E-Discovery 2025

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.