GDPR eta Eskaneatu Zaharra: OCR PII detektatzeko
2026rako eguneratua
GDPR ikuskaritzek arrisku ezkutu bera agertzen dute maiz: irudi-oinarriko PDF artxibo zaharrak.
Lege-bulegoak 20 urteko bezeroen fitxategi eskaneatuak dituzte. Ospitaleek hamarkadako gaixoen formularioak gorde dituzte. Gobernu-erakundeek erregistro eskaneatuak biltzen dituzte. Bankuek mailegu-fitxategi irudikatuak dituzte.
Artxibo hauek ezaugarri bat partekatzen dute. Fitxategiak trama-irudiak dira: PDF eskaneatuak, TIFF edo JPEG. Ez dago testu-geruzarik. PII tresna estandarrek ezin dituzte irakurri. Anonimizazio-tresna gehienentzat, fitxategi hauek ez dira existitzen.
Sinesmen arrunta: "Irudi-fitxategiak dira, GDPR ez da aplikatzen."
GDPR 17(1) artikuluak pertsonei ezabatzeko eskubidea ematen die. 26. Oharrak dio anonimizazioak informazio pertsonala aplikazio-eremutik kentzen duela. Biak ez dute irudi-formatuentzako salbuespenik ezartzen. 15 urteko bezero-fitxategi batentzako ezabatze-eskaera bete ezin duen lege-bulego batek betetze-hutsunea dauka. Ez dauka salbuespena.
Ikusi gure betetze-ikuspegia eta segurtasun-praktikak GDPRri nola laguntzen diogun jakiteko.
Detekzio-hodi nola funtzionatzen duen
Prozesuak hiru fasetan exekutatzen du.
1. fasea - OCR
OCR motorrak irudia irakurtzen du eta testua ateratzen du. Hitz bakoitzaren posizioa erregistratzen du. Emaitza koordenatuekin makina-irakurgarria den testua da. Doitasuna jaisten da eskuizkribuak, tinta lausotua edo letra-tipografia zaharrak daudenean.
2. fasea - NLP Entitate Detekzioa
NEE (Entitate Izendatuen Ezagutza) OCR testua eskaneatzen du. Pertsona-izenak, erakundeak eta kokalekuak aurkitzen ditu. Patroi-parekatzeak SSNak, telefono-zenbakiak eta kontu-zenbakiak gehitzen ditu. Hit bakoitzak konfiantza-puntuazio bat jasotzen du.
3. fasea - Anonimizazioa
Detektatutako entitateak testu-irteeran ordezkatzen dira. Jatorrizko irudia ez da aldatzen. Irudia aldatzeko berariazko ezabatze-tresneriak behar dira. Testu anonimizatuak ezabatze-eskaerak, DSAR erantzunak eta betetze-erregistroak onartzen ditu.
OCR motor modernoek %98-99ko zehaztasuna lortzen dute inprimatutako orri garbietan. Eskuizkribuak edo eskaneatu degradatuak %85-92ra jaisten dira. Entitate-mailako zehaztasuna karaktere-mailakoa baino handiagoa izaten da. Izen bat identifika daiteke letra batzuk oker daudenean ere.
Ondorio praktikoa: OCR zehaztasunak eragina du zenbat entitate harrapatzen dituzun. Ez du metodoa funtzionatzen duen ala ez zehazten. %90eko zehaztasunean ere, izen eta zenbaki gehienak aurkitzen dituzu. Kalitate-mailak beharrezkoak dira. Metodoa bera soinua da.
Artxibo Handi bat Prozesatzea
Artxibo legatu handiek lau faseko lan-fluxua jarraitzen dute.
1. fasea - Inbentarioa: Zerrendatu irudi-oinarriko artxibo guztiak. Idatzi iturri-sistema eta data-tartea. Ezabatze-arrisku handiko erregistroak lehenengo. Bezeroei zuzendutako fitxategiak barrukoaren aurretik.
2. fasea - Lotekako prozesatzea: Exekutatu OCR eta PII detekzioa lotetan. Bost-hamar mila fitxategi loteko tamaina arrunta da. Prozesatzea gauean exekutatzen da. Emaitza PII txostena da eta fitxategi bakoitzeko testu-laburpen anonimizatua.
3. fasea - Ezabatze betearazpena: Gaiak bere izena eta aldia duen eskaera bidaltzen du. Bilatu anonimizatutako laburpenetan haien tokenak. Aurkitu fitxategiak. Berregin. Erregistratu ekintza.
4. fasea - Etengabeko betetzea: Sartu fitxategi eskaneatze berriak hodi beretik artxibatu aurretik. Gorde PII txostenak 30. artikuluko Prozesatze Jardueren Erregistroen froga gisa.
Kasu Azterketa: Lege-bulegoko Artxiboa
Lege-bulego baten ikuskaritzak 80.000 PDF bezero-kontratu irudi-oinarrikoak aurkitu zituen 1998tik 2010era eskaneatuak. PII tresna estandarrek zero detekzio erakutsi zuten. Irudi-formatua ikusezina zen.
Hamabost bezero ohik ezabatze-eskaerak aurkeztu zituzten aurreko 12 hilabeteetan. Enpresak esan zuen: "Ezin dugu baieztatu zure erregistroak ezabatu direla." Erantzun horrek ez du GDPR 17. artikulua betetzen.
Enpresak egin zuena:
- OCR eta PII detekzioa exekutatu zituen 80.000 fitxategi guztietan 5.000ko lotetan
- Prozesatzeak hiru aste inguru iraun zuen
- Emaitza: 80.000 testu-laburpen anonimizatu fitxategi bakoitzeko txostenekin
- Eraikitako indize bilagarria entitateak fitxategi IDrekin lotuz
Prozesatu ondoren:
- Gai batentzako fitxategiak aurkitzea: batez beste 4 minutu
- Fitxategiak eskaerako: batez beste 6-8
- Ezabatze-denbora eskaerako: 20-30 minutu
15 eskaera guztiak 30 egunean ebatzi ziren.
Puntu nagusia: betetze-obligazioa prozesatu aurretik existitzen zen. Enpresak bete ahal izateko tresnak falta zitzaizkion. OCR-oinarriko prozesatzeak ez zuen betebehar berria sortu. Betebehar existente bat betetzea posible egin zuen.
OCR Mugak eta Kalitate-mailak
Eskuizkribuak OCR zehaztasun txikiagoa du. Ezarri konfiantza-atalase txikiagoa eskuizkribuzko edukia prozesatu aurretik.
Eskaneatu kalitate txarrak puntuazioak murrizten ditu. Kontraste-hobekuntzak eta lerrokatzeak laguntzen dute OCR exekutatu aurretik.
Ezohiko diseinu-osagarriak - zutabe anitzeko orriak, lege-letra-tipografia zaharrak - puntuazio txikiagoa lortzen dute.
Ezarri kalitate-mailak betetze-lanetarako:
- Orri-zehaztasunaren %95 gainetik: exekutatu prozesatze automatizatua
- %80-95: exekutatu prozesatze automatizatua, gero giza berrikuspena entitate markatuentzat
- %80 azpitik: bidali eskuzko berrikuspena
Mailakatutako planteamendua arautzaileei erantzun argia ematen die fidagarritasuna nola ebaluatu zenuen jakiteko. Tresna automatizatu gehienek konfiantza handiko fitxategiak kudeatzen dituzte. Giza ilarak gainerakoak kudeatzen ditu. Rendimendua altu mantentzen da. Betetze-kalitatea ere altu mantentzen da.
Gure FAQ ak galdera arruntak OCR-oinarriko prozesatzeari eta ikuskaritza-ibilbideen eskakizunei buruz estaltzen ditu.