GDPR és régi szkennelt fájlok: OCR a személyes adatok kezeléséhez
Frissítve 2026-ra
A GDPR-auditok rendszeresen ugyanazt a rejtett kockázatot tárják fel: régi, képalapú PDF-archívumokat.
Az ügyvédi irodák 20 évnyi szkennelt ügyfélaktát őriznek. A kórházak évtizedes betegkartonokat tárolnak. A kormányzati szervek szkennelt iratokat archiválnak. A bankok digitalizált kölcsönszerződéseket tartanak nyilván.
Ezeket az archívumokat egyetlen közös vonás jellemzi. A fájlok raszterképek — szkennelt PDF-ek, TIFF- vagy JPEG-formátumú fájlok. Nincs szöveges rétegük. A szabványos személyesadat-felismerő eszközök nem tudják beolvasni őket. A legtöbb anonimizálási eszköz számára ezek a fájlok egyszerűen nem léteznek.
Gakori tévhit: „Ezek képfájlok — a GDPR nem vonatkozik rájuk.”
A GDPR 17. cikkének (1) bekezdése biztosítja az embereknek a törléshez való jogot. A 26. preambulumbekezdés kimondja, hogy az anonimizálás eltávolítja a személyes adatokat a szabályozás hatálya alól. Egyik rendelkezés sem tesz kivételt a képformátum alapján. Az az ügyvédi iroda, amely nem tud eleget tenni egy 15 évvel ezelőtti ügyfélre vonatkozó törlési kérelemnek, megfelelőségi hiányossággal küzd — nem mentességgel rendelkezik.
Lásd megfelelőségi áttekintőnket és biztonsági gyakorlatainkat a GDPR-támogatásról.
Az észlelési folyamat működése
A folyamat három szakaszban zajlik.
1. szakasz — OCR
Az OCR-motor beolvassa a képet és kinyeri a szöveget. Rögzíti minden szó helyzetét. A kimenet géppel olvasható szöveg koordinátákkal. A pontosság csökken, ha kézírás, fakuló tinta vagy régi betűtípus van jelen.
2. szakasz — NLP-alapú entitásfelismerés
A névelem-felismerő (NER) rendszer átvizsgálja az OCR-szöveget. Megtalálja a személyneveket, szervezeteket és helyszíneket. A mintafelismerés kiegészíti a TAJ-számokkal, telefonszámokkal és számlaszámokkal. Minden találat megbízhatósági pontszámot kap.
3. szakasz — Anonimizálás
Az észlelt entitások helyébe tokenek kerülnek a szöveges kimenetben. Az eredeti kép nem változik. A kép módosításához külön redakciós eszközre van szükség. Az anonimizált szöveg törlési kérelmek, adatvédelmi incidensek kezelése (DSAR) és megfelelőségi nyilvántartások céljára használható.
A modern OCR-motorok 98–99%-os karakterpontossággal dolgoznak tisztán nyomtatott oldalakon. Kézírás vagy leromlott minőségű szkennelt képek esetén ez 85–92%-ra esik vissza. Az entitásszintű pontosság általában magasabb a karakterszintűnél. Egy nevet akkor is fel lehet ismerni, ha néhány betű hibás.
A gyakorlati következmény: az OCR-pontosság befolyásolja az észlelt entitások számát, de nem határozza meg a módszer megbízhatóságát. Még 90%-os pontosság esetén is megtalálható a nevek és számok nagy része. Minőségi szintek beállítása mégis szükséges. Maga a módszer megalapozott.
Nagy archívum feldolgozása
A nagy, öröklött archívumok kezelése négyfázisú munkafolyamatot követ.
1. fázis — Leltár: Fel kell sorolni az összes képalapú archívumot. Rögzíteni kell a forrásrendszert és a dátumtartományt. A magas törlési kockázatú iratokat érdemes előre sorolni. Az ügyfelekkel kapcsolatos fájlok megelőzik a belső dokumentumokat.
2. fázis — Kötegelt feldolgozás: Az OCR és a személyesadat-felismerés kötegelt futtatása javasolt. Kötegenkénti ötezer–tízezer fájl tipikus méret. A feldolgozás éjszaka zajlik. Kimenetként minden fájlhoz személyes adatokról szóló jelentés és anonimizált szövegkivonat keletkezik.
3. fázis — Törlési kérelmek teljesítése: Az érintett elküldi a kérelmét nevével és az időszakkal. Az anonimizált kivonatokban rákeresünk a tokenekre. Megtaláljuk a fájlokat. Redakálunk. Naplózzuk a műveletet.
4. fázis — Folyamatos megfelelés: Az új szkennelt fájlok ugyanezen a folyamaton mennek át archiválás előtt. A személyesadat-jelentéseket a GDPR 30. cikke szerinti adatkezelési tevékenységek nyilvántartásának bizonyítékaként őrzik meg.
Esettanulmány: Ügyvédi iroda archívuma
Egy ügyvédi irodai audit során 80 000 képalapú PDF-es ügyfélszerződést találtak, amelyeket 1998 és 2010 között szkenneltek be. A szabványos személyesadat-eszközök nullát mutattak. A képformátum láthatatlan volt.
Tizenöt volt ügyfél nyújtott be törlési kérelmet az előző 12 hónapban. Az iroda azt válaszolta: „Nem tudjuk megerősíteni, hogy adatait töröltük.” Ez a válasz nem felel meg a GDPR 17. cikkének.
Az iroda lépései:
- Az összes 80 000 fájlon elvégezte az OCR-t és a személyesadat-felismerést 5000-es kötegekben
- A feldolgozás körülbelül három hétig tartott
- Eredmény: 80 000 anonimizált szövegkivonat fájlonkénti jelentéssel
- Kereshető index felépítése, amely összekapcsolja az entitásokat a fájlazonosítókkal
A feldolgozás után:
- Egy érintett fájljainak megtalálása: átlagosan 4 perc
- Fájlok száma kérelmenként: átlagosan 6–8
- Redakálási idő kérelmenként: 20–30 perc
Mind a 15 nyitott kérelmet 30 napon belül teljesítették.
A lényeg: a megfelelőségi kötelezettség a feldolgozás előtt is fennállt. Az irodának csupán nem volt meg az eszköze a teljesítéséhez. Az OCR-alapú feldolgozás nem teremtett új kötelezettséget — csupán lehetővé tette a meglévő kötelezettség teljesítését.
Az OCR korlátai és minőségi szintek
A kézírás alacsonyabb OCR-pontossággal jár. Kézzel írt tartalom feldolgozása előtt alacsonyabb megbízhatósági küszöböt kell beállítani.
A gyenge szkennelési minőség csökkenti a pontszámokat. A kontraszt javítása és a ferdítés korrigálása segít az OCR futtatása előtt.
Szokatlan elrendezések — többhasábos oldalak, régi jogi betűtípusok — szintén alacsonyabb pontszámot eredményezhetnek.
Minőségi szintek beállítása a megfelelőségi munkához:
- 95% fölötti oldalpontosság esetén: automatikus feldolgozás
- 80–95% között: automatikus feldolgozás, majd emberi ellenőrzés a megjelölt entitásoknál
- 80% alatt: kézi ellenőrzésre küldés
A szintezett megközelítés egyértelmű választ ad a szabályozóknak arról, hogyan értékelték a megbízhatóságot. A legtöbb automatizált eszköz a magas megbízhatóságú fájlokat kezeli. A kézi sor a többit fogadja. Az áteresztőképesség magas marad. A megfelelőségi minőség szintén.
GYIK-oldalunk az OCR-alapú feldolgozással és az auditnaplók követelményeivel kapcsolatos gyakori kérdéseket tartalmazza.