Problém historických archivů, o kterém se nemluví

Organizace provádějící audity souladu s GDPR opakovaně narážejí na stejnou kategorii skrytého rizika: archivy obrazových PDF vzniklých před zavedením digitalizačních programů.

Právní firmy s dvacetiletou historií naskenovaných klientských spisů. Zdravotnická zařízení s desetiletími naskenovaných formulářů pro příjem pacientů. Vládní agentury s naskenovanými historickými záznamy. Banky s obrazovými kopiemi žádostí o úvěr a účetními dokumenty.

Tyto archivy mají společného jmenovatele: dokumenty jsou uloženy jako naskenované obrazy (rastrová PDF, TIFF nebo JPEG), nikoli jako textové digitální dokumenty. Není tu žádná textová vrstva, žádný strojově čitelný obsah pro standardní nástroje na detekci PII. Pro konvenční anonymizační nástroj jsou tyto dokumenty neviditelné.

Rozšířená mylná představa zní: „Jsou to jen obrázkové soubory — GDPR se na ně vlastně nevztahuje.”

Text GDPR je jednoznačný. Článek 17 odst. 1 přiznává subjektům údajů právo na výmaz osobních údajů. Recitál 26 potvrzuje, že anonymizace osobních údajů je standardem pro data, která se již nevztahují k identifikovatelné fyzické osobě. Žádné z těchto ustanovení nestanoví výjimku pro obrazové formáty pocházející z papírových originálů.

Právní firma, která není schopna odpovědět na žádost o výmaz klienta zastupovaného před patnácti lety — protože patnáct let staré klientské záznamy existují výhradně jako naskenovaná obrazová PDF — má mezeru v souladu s GDPR, nikoli výjimku.

Jak funguje detekce PII v obrazových dokumentech

Technický postup detekce PII v obrazových dokumentech integruje dvě fáze:

Fáze 1: Optické rozpoznávání znaků (OCR)

Vstup: naskenované PDF nebo obrázkový soubor
OCR engine extrahuje text z naskenovaného obrazu
Výstup: strojově čitelný text s prostorovými souřadnicemi
Výzva: ručně psaný text, nízká kvalita skenu, vybledlý inkoust a staré typy písma snižují přesnost OCR

Fáze 2: Detekce PII pomocí NLP

Vstup: text extrahovaný pomocí OCR
Rozpoznávání pojmenovaných entit (NER) identifikuje jména osob, organizací a míst
Shoda vzorů identifikuje rodná čísla, telefonní čísla, e-mailové adresy a čísla účtů
Výstup: detekované entity PII se skóre spolehlivosti a prostorovými referencemi

Fáze 3: Anonymizace

Detekované entity jsou anonymizovány v extrahovaném textovém výstupu
U obrazových PDF: výstupem je anonymizovaný textový dokument (originální obraz není upraven — jeho úprava by vyžadovala nástroje pro redakci PDF)
Anonymizovaný text umožňuje odpovědi na žádosti DSAR, plnění žádostí o výmaz a dokumentaci pro účely souladu

Kvalita OCR je primárním technickým omezením. U kvalitně tisknutých dokumentů dosahují moderní OCR enginy přesnosti 98–99 % na úrovni znaků. U ručně psaného nebo degradovaného skenu může být přesnost 85–92 %. Pro účely detekce PII bývá přesnost na úrovni entit (správné zjištění, že se jméno v dokumentu vyskytuje, i když mají jednotlivé znaky drobné chyby) zpravidla vyšší než přesnost na úrovni znaků.

Praktické zpracování rozsáhlých archivů

Pro organizace s rozsáhlými historickými archivy platí tento provozní postup:

Fáze inventarizace:

Zaevidujte všechny archivy obrazových PDF podle zdrojového systému a časového rozsahu
Odhadněte objem a stanovte prioritu podle rizika žádostí o výmaz (záznamy zaměřené na klienty mají přednost)

Dávkové zpracování:

Zpracovávejte archivy v dávkách (typicky 5 000–10 000 souborů)
OCR + detekce PII probíhají asynchronně
Výstup: zprávy o detekci PII pro každý soubor a extrakty anonymizovaného textu

Plnění žádostí o výmaz:

Subjekt údajů podá žádost o výmaz se svým jménem a příslušným obdobím
Vyhledejte v extraktech anonymizovaného textu pseudonymizované tokeny propojené s daným subjektem
Identifikujte konkrétní dokumenty obsahující záznamy o subjektu
Zpracujte tyto konkrétní dokumenty pro redakci (úprava originálního obrazového PDF)
Zdokumentujte provedení výmazu

Průběžný soulad:

Nové naskenované dokumenty procházejí stejným postupem před archivací
Zprávy o detekci PII jsou uchovávány jako důkaz pro záznamy o činnostech zpracování podle článku 30 GDPR

Případová studie: dvacetileté archivy advokátní kanceláře

Právní firma provádějící audit GDPR objevila 80 000 obrazových PDF klientských smluv naskenovaných v letech 1998 až 2010. Standardní nástroje pro PII nevrátily žádné detekce — obrazový formát byl pro ně neviditelný.

Soulad byl konkrétně narušen: 15 bývalých klientů podalo žádosti o výmaz v průběhu předchozích 12 měsíců. Odpověď firmy zněla: „Nemůžeme potvrdit, že vaše data byla vymazána, protože naše historické záznamy jsou v obrazovém formátu, který neumíme zpracovat.” Taková odpověď nesplňuje požadavky GDPR dle článku 17.

Postup zpracování:

OCR + detekce PII na všech 80 000 dokumentech v dávkách po 5 000
Doba zpracování: přibližně 3 týdny dávkového zpracování
Výsledek: 80 000 anonymizovaných textových extraktů se zprávami o detekci PII pro každý soubor
Prohledávatelný index detekovaných entit propojených s identifikátory dokumentů

Plnění žádostí o výmaz po zpracování:

Průměrná doba k identifikaci dokumentů konkrétního subjektu údajů: 4 minuty (vyhledávání v anonymizovaných extraktech)
Počet dokumentů na žádost o výmaz: průměrně 6–8 dokumentů
Redakce identifikovaných dokumentů: 20–30 minut na žádost

Předtím nesplnitelná povinnost v oblasti souladu: splněna. 15 nevyřízených žádostí o výmaz bylo vyřešeno do 30 dnů od dokončení zpracování archivu.

Omezení OCR a řízení kvality

Poctivé posouzení detekce PII na základě OCR u historických dokumentů vyžaduje přiznání omezení:

Přesnost ručního písma: Ručně psané dokumenty (osobní prohlášení, ručně vyplněné přihlášky) mají nižší přesnost OCR než tisknuté dokumenty. Detekce PII v ručně psaném obsahu vyžaduje úpravu prahové hodnoty spolehlivosti.

Degradovaná kvalita skenu: Dokumenty naskenované s nízkým rozlišením nebo špatnou expozicí mají sníženou přesnost OCR. Předběžné zpracování (zvýšení kontrastu, narovnání) může výsledky zlepšit.

Neobvyklé typy písma a formáty: Předdigitální typy písma, formáty právních dokumentů s neobvyklým rozložením a vícesloupcové dokumenty mohou mít nižší přesnost OCR.

Nastavení prahové hodnoty kvality: Pro účely dokumentace souladu je vhodné klasifikovat dokumenty podle spolehlivosti OCR: vysoká spolehlivost (> 95 % přesnost na stránce) — vhodné pro automatizované zpracování; střední spolehlivost (80–95 %) — vhodné pro automatizované zpracování s lidskou kontrolou označených entit; nízká spolehlivost (< 80 %) — vyžaduje ruční kontrolu.

Pro organizace s rozsáhlými archivy degradovaných historických dokumentů poskytuje hybridní přístup — automatizované zpracování pro dokumenty s vysokou spolehlivostí, fronta pro ruční kontrolu u dokumentů s nízkou spolehlivostí — praktický průtok při zachování kvality souladu.

Zdroje:

Související články

GDPR a shoda

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

GDPR a historické naskenované dokumenty: OCR a detekce PII

Problém historických archivů, o kterém se nemluví

Jak funguje detekce PII v obrazových dokumentech

Praktické zpracování rozsáhlých archivů

Případová studie: dvacetileté archivy advokátní kanceláře

Omezení OCR a řízení kvality

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

GDPR a historické naskenované dokumenty: OCR a detekce PII

Problém historických archivů, o kterém se nemluví

Jak funguje detekce PII v obrazových dokumentech

Praktické zpracování rozsáhlých archivů

Případová studie: dvacetileté archivy advokátní kanceláře

Omezení OCR a řízení kvality

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow