Problém historických archivů, o kterém se nemluví
Organizace provádějící audity souladu s GDPR opakovaně narážejí na stejnou kategorii skrytého rizika: archivy obrazových PDF vzniklých před zavedením digitalizačních programů.
Právní firmy s dvacetiletou historií naskenovaných klientských spisů. Zdravotnická zařízení s desetiletími naskenovaných formulářů pro příjem pacientů. Vládní agentury s naskenovanými historickými záznamy. Banky s obrazovými kopiemi žádostí o úvěr a účetními dokumenty.
Tyto archivy mají společného jmenovatele: dokumenty jsou uloženy jako naskenované obrazy (rastrová PDF, TIFF nebo JPEG), nikoli jako textové digitální dokumenty. Není tu žádná textová vrstva, žádný strojově čitelný obsah pro standardní nástroje na detekci PII. Pro konvenční anonymizační nástroj jsou tyto dokumenty neviditelné.
Rozšířená mylná představa zní: „Jsou to jen obrázkové soubory — GDPR se na ně vlastně nevztahuje.”
Text GDPR je jednoznačný. Článek 17 odst. 1 přiznává subjektům údajů právo na výmaz osobních údajů. Recitál 26 potvrzuje, že anonymizace osobních údajů je standardem pro data, která se již nevztahují k identifikovatelné fyzické osobě. Žádné z těchto ustanovení nestanoví výjimku pro obrazové formáty pocházející z papírových originálů.
Právní firma, která není schopna odpovědět na žádost o výmaz klienta zastupovaného před patnácti lety — protože patnáct let staré klientské záznamy existují výhradně jako naskenovaná obrazová PDF — má mezeru v souladu s GDPR, nikoli výjimku.
Jak funguje detekce PII v obrazových dokumentech
Technický postup detekce PII v obrazových dokumentech integruje dvě fáze:
Fáze 1: Optické rozpoznávání znaků (OCR)
- Vstup: naskenované PDF nebo obrázkový soubor
- OCR engine extrahuje text z naskenovaného obrazu
- Výstup: strojově čitelný text s prostorovými souřadnicemi
- Výzva: ručně psaný text, nízká kvalita skenu, vybledlý inkoust a staré typy písma snižují přesnost OCR
Fáze 2: Detekce PII pomocí NLP
- Vstup: text extrahovaný pomocí OCR
- Rozpoznávání pojmenovaných entit (NER) identifikuje jména osob, organizací a míst
- Shoda vzorů identifikuje rodná čísla, telefonní čísla, e-mailové adresy a čísla účtů
- Výstup: detekované entity PII se skóre spolehlivosti a prostorovými referencemi
Fáze 3: Anonymizace
- Detekované entity jsou anonymizovány v extrahovaném textovém výstupu
- U obrazových PDF: výstupem je anonymizovaný textový dokument (originální obraz není upraven — jeho úprava by vyžadovala nástroje pro redakci PDF)
- Anonymizovaný text umožňuje odpovědi na žádosti DSAR, plnění žádostí o výmaz a dokumentaci pro účely souladu
Kvalita OCR je primárním technickým omezením. U kvalitně tisknutých dokumentů dosahují moderní OCR enginy přesnosti 98–99 % na úrovni znaků. U ručně psaného nebo degradovaného skenu může být přesnost 85–92 %. Pro účely detekce PII bývá přesnost na úrovni entit (správné zjištění, že se jméno v dokumentu vyskytuje, i když mají jednotlivé znaky drobné chyby) zpravidla vyšší než přesnost na úrovni znaků.
Praktické zpracování rozsáhlých archivů
Pro organizace s rozsáhlými historickými archivy platí tento provozní postup:
Fáze inventarizace:
- Zaevidujte všechny archivy obrazových PDF podle zdrojového systému a časového rozsahu
- Odhadněte objem a stanovte prioritu podle rizika žádostí o výmaz (záznamy zaměřené na klienty mají přednost)
Dávkové zpracování:
- Zpracovávejte archivy v dávkách (typicky 5 000–10 000 souborů)
- OCR + detekce PII probíhají asynchronně
- Výstup: zprávy o detekci PII pro každý soubor a extrakty anonymizovaného textu
Plnění žádostí o výmaz:
- Subjekt údajů podá žádost o výmaz se svým jménem a příslušným obdobím
- Vyhledejte v extraktech anonymizovaného textu pseudonymizované tokeny propojené s daným subjektem
- Identifikujte konkrétní dokumenty obsahující záznamy o subjektu
- Zpracujte tyto konkrétní dokumenty pro redakci (úprava originálního obrazového PDF)
- Zdokumentujte provedení výmazu
Průběžný soulad:
- Nové naskenované dokumenty procházejí stejným postupem před archivací
- Zprávy o detekci PII jsou uchovávány jako důkaz pro záznamy o činnostech zpracování podle článku 30 GDPR
Případová studie: dvacetileté archivy advokátní kanceláře
Právní firma provádějící audit GDPR objevila 80 000 obrazových PDF klientských smluv naskenovaných v letech 1998 až 2010. Standardní nástroje pro PII nevrátily žádné detekce — obrazový formát byl pro ně neviditelný.
Soulad byl konkrétně narušen: 15 bývalých klientů podalo žádosti o výmaz v průběhu předchozích 12 měsíců. Odpověď firmy zněla: „Nemůžeme potvrdit, že vaše data byla vymazána, protože naše historické záznamy jsou v obrazovém formátu, který neumíme zpracovat.” Taková odpověď nesplňuje požadavky GDPR dle článku 17.
Postup zpracování:
- OCR + detekce PII na všech 80 000 dokumentech v dávkách po 5 000
- Doba zpracování: přibližně 3 týdny dávkového zpracování
- Výsledek: 80 000 anonymizovaných textových extraktů se zprávami o detekci PII pro každý soubor
- Prohledávatelný index detekovaných entit propojených s identifikátory dokumentů
Plnění žádostí o výmaz po zpracování:
- Průměrná doba k identifikaci dokumentů konkrétního subjektu údajů: 4 minuty (vyhledávání v anonymizovaných extraktech)
- Počet dokumentů na žádost o výmaz: průměrně 6–8 dokumentů
- Redakce identifikovaných dokumentů: 20–30 minut na žádost
Předtím nesplnitelná povinnost v oblasti souladu: splněna. 15 nevyřízených žádostí o výmaz bylo vyřešeno do 30 dnů od dokončení zpracování archivu.
Omezení OCR a řízení kvality
Poctivé posouzení detekce PII na základě OCR u historických dokumentů vyžaduje přiznání omezení:
Přesnost ručního písma: Ručně psané dokumenty (osobní prohlášení, ručně vyplněné přihlášky) mají nižší přesnost OCR než tisknuté dokumenty. Detekce PII v ručně psaném obsahu vyžaduje úpravu prahové hodnoty spolehlivosti.
Degradovaná kvalita skenu: Dokumenty naskenované s nízkým rozlišením nebo špatnou expozicí mají sníženou přesnost OCR. Předběžné zpracování (zvýšení kontrastu, narovnání) může výsledky zlepšit.
Neobvyklé typy písma a formáty: Předdigitální typy písma, formáty právních dokumentů s neobvyklým rozložením a vícesloupcové dokumenty mohou mít nižší přesnost OCR.
Nastavení prahové hodnoty kvality: Pro účely dokumentace souladu je vhodné klasifikovat dokumenty podle spolehlivosti OCR: vysoká spolehlivost (> 95 % přesnost na stránce) — vhodné pro automatizované zpracování; střední spolehlivost (80–95 %) — vhodné pro automatizované zpracování s lidskou kontrolou označených entit; nízká spolehlivost (< 80 %) — vyžaduje ruční kontrolu.
Pro organizace s rozsáhlými archivy degradovaných historických dokumentů poskytuje hybridní přístup — automatizované zpracování pro dokumenty s vysokou spolehlivostí, fronta pro ruční kontrolu u dokumentů s nízkou spolehlivostí — praktický průtok při zachování kvality souladu.
Zdroje: