Zpět na blogTechnické

Problém fragmentace formátů dokumentů...

Jedna odpověď DSAR může zahrnovat smlouvy Word, faktury PDF, seznamy zákazníků Excel a CSV exporty.

April 21, 20267 min čtení
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Realita heterogenního prostředí dokumentů

Zeptejte se jakéhokoli compliance office, jaké formáty dokumentů musí anonymizovat pro odpovědi DSAR, a seznam je předvídatelný: smlouvy Word, faktury PDF, zákaznická data Excel, exporty systémů CSV a někdy záznamy JSON nebo XML kanály.

Zeptejte se, jaké nástroje používají, a odpověď je obvykle: tři až pět různých nástrojů, každý s různým pokrytím entit, různými konfiguračními rozhraními a různými formáty auditního záznamu.

Tato fragmentace není výsledkem špatného plánování. Odráží absenci jediného nástroje, který skutečně zpracovává všechny formáty konzistentně.

Technické výzvy pro každý formát

PDF

  • Text může být v text vrstvě nebo rastrovaný (OCR vyžadován)
  • Formulářová pole, anotace, metadata — všechny mohou obsahovat PII
  • Vícejazyčné PDF s různými kódováními
  • Vložená písma ovlivňují extrakci textu

DOCX/DOC

  • Revize sledování může obsahovat původní PII text (revize nezobrazené)
  • Komentáře a anotace — odlišné od textu těla
  • Záhlaví a zápatí — obvykle zanedbané auto-nástroji
  • Vnořené objekty (Excel tabulky uvnitř Word)

XLSX/CSV

  • Buňky mohou být naformátovány jako čísla, ale obsahují PII (např. SSN formátováno jako číslo)
  • Více listů — anonymizace musí procházet všechny listy
  • Skryté sloupce a řádky — snadné přehlédnutí pro manuální přezkum
  • Zformulované buňky vs. statická hodnota — různé zpracování

JSON/XML (API záznamy)

  • Vnořené struktury vyžadují rekurzivní zpracování
  • Pole názvů klíčů mohou identifikovat PII kontext (např. customer_email)
  • Pole polí mohou skrýt entitu na libovolné hloubce
  • Smíšené datové typy v jednoduchém poli

Náklady na fragmentaci

Pro organizaci zpracovávající 1 000 DSAR ročně:

AktivitaJednofragmentovaný přístupSjednocený přístup
Školení (nové nástroje)40 hodin/zaměstnanec8 hodin/zaměstnanec
Zpracování DSAR4,2 hodiny/žádost1,1 hodiny/žádost
Konsolidace záznamu1,8 hodiny/žádost0 hodin (automatizovaná)
Sazba auditu12 % zjištění/rok1,5 % zjištění/rok
Roční náklady~€185 000~€52 000

Konzistentní zpracování anonym.legal

anonym.legal zpracovává PDF, DOCX, XLSX, CSV, JSON a TXT prostřednictvím stejného engine, s:

  • Stejnou sadou entit (285+) aplikovanou na každý formát
  • Identickými konfiguracemi prahové hodnoty napříč formáty
  • Jedním auditním záznamem zahrnujícím všechna zpracování
  • Konzistentními anonymizačními metodami napříč formáty

Pro DSAR odpovědi: Nahrát ZIP obsahující smíšené formáty → jedno zpracování → zpráva auditního záznamu pro DPA.

Pro e-discovery produkce: Dávkové zpracování napříč formáty se sledovanými aplikovanými redakcemi.

Zdroje: GDPR článek 15 — právo přístupu · Pokyny ICO ke DSAR · FRCP pravidlo 34 — formáty produkce

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.