Realita heterogenního prostředí dokumentů
Zeptejte se jakéhokoli compliance office, jaké formáty dokumentů musí anonymizovat pro odpovědi DSAR, a seznam je předvídatelný: smlouvy Word, faktury PDF, zákaznická data Excel, exporty systémů CSV a někdy záznamy JSON nebo XML kanály.
Zeptejte se, jaké nástroje používají, a odpověď je obvykle: tři až pět různých nástrojů, každý s různým pokrytím entit, různými konfiguračními rozhraními a různými formáty auditního záznamu.
Tato fragmentace není výsledkem špatného plánování. Odráží absenci jediného nástroje, který skutečně zpracovává všechny formáty konzistentně.
Technické výzvy pro každý formát
- Text může být v text vrstvě nebo rastrovaný (OCR vyžadován)
- Formulářová pole, anotace, metadata — všechny mohou obsahovat PII
- Vícejazyčné PDF s různými kódováními
- Vložená písma ovlivňují extrakci textu
DOCX/DOC
- Revize sledování může obsahovat původní PII text (revize nezobrazené)
- Komentáře a anotace — odlišné od textu těla
- Záhlaví a zápatí — obvykle zanedbané auto-nástroji
- Vnořené objekty (Excel tabulky uvnitř Word)
XLSX/CSV
- Buňky mohou být naformátovány jako čísla, ale obsahují PII (např. SSN formátováno jako číslo)
- Více listů — anonymizace musí procházet všechny listy
- Skryté sloupce a řádky — snadné přehlédnutí pro manuální přezkum
- Zformulované buňky vs. statická hodnota — různé zpracování
JSON/XML (API záznamy)
- Vnořené struktury vyžadují rekurzivní zpracování
- Pole názvů klíčů mohou identifikovat PII kontext (např.
customer_email) - Pole polí mohou skrýt entitu na libovolné hloubce
- Smíšené datové typy v jednoduchém poli
Náklady na fragmentaci
Pro organizaci zpracovávající 1 000 DSAR ročně:
| Aktivita | Jednofragmentovaný přístup | Sjednocený přístup |
|---|---|---|
| Školení (nové nástroje) | 40 hodin/zaměstnanec | 8 hodin/zaměstnanec |
| Zpracování DSAR | 4,2 hodiny/žádost | 1,1 hodiny/žádost |
| Konsolidace záznamu | 1,8 hodiny/žádost | 0 hodin (automatizovaná) |
| Sazba auditu | 12 % zjištění/rok | 1,5 % zjištění/rok |
| Roční náklady | ~€185 000 | ~€52 000 |
Konzistentní zpracování anonym.legal
anonym.legal zpracovává PDF, DOCX, XLSX, CSV, JSON a TXT prostřednictvím stejného engine, s:
- Stejnou sadou entit (285+) aplikovanou na každý formát
- Identickými konfiguracemi prahové hodnoty napříč formáty
- Jedním auditním záznamem zahrnujícím všechna zpracování
- Konzistentními anonymizačními metodami napříč formáty
Pro DSAR odpovědi: Nahrát ZIP obsahující smíšené formáty → jedno zpracování → zpráva auditního záznamu pro DPA.
Pro e-discovery produkce: Dávkové zpracování napříč formáty se sledovanými aplikovanými redakcemi.
Zdroje: GDPR článek 15 — právo přístupu · Pokyny ICO ke DSAR · FRCP pravidlo 34 — formáty produkce