2026rako eguneratua

GDPR ikuskaritzek arrisku ezkutu bera agertzen dute maiz: irudi-oinarriko PDF artxibo zaharrak.

Lege-bulegoak 20 urteko bezeroen fitxategi eskaneatuak dituzte. Ospitaleek hamarkadako gaixoen formularioak gorde dituzte. Gobernu-erakundeek erregistro eskaneatuak biltzen dituzte. Bankuek mailegu-fitxategi irudikatuak dituzte.

Artxibo hauek ezaugarri bat partekatzen dute. Fitxategiak trama-irudiak dira: PDF eskaneatuak, TIFF edo JPEG. Ez dago testu-geruzarik. PII tresna estandarrek ezin dituzte irakurri. Anonimizazio-tresna gehienentzat, fitxategi hauek ez dira existitzen.

Sinesmen arrunta: "Irudi-fitxategiak dira, GDPR ez da aplikatzen."

GDPR 17(1) artikuluak pertsonei ezabatzeko eskubidea ematen die. 26. Oharrak dio anonimizazioak informazio pertsonala aplikazio-eremutik kentzen duela. Biak ez dute irudi-formatuentzako salbuespenik ezartzen. 15 urteko bezero-fitxategi batentzako ezabatze-eskaera bete ezin duen lege-bulego batek betetze-hutsunea dauka. Ez dauka salbuespena.

Ikusi gure betetze-ikuspegia eta segurtasun-praktikak GDPRri nola laguntzen diogun jakiteko.

Detekzio-hodi nola funtzionatzen duen

Prozesuak hiru fasetan exekutatzen du.

1. fasea - OCR

OCR motorrak irudia irakurtzen du eta testua ateratzen du. Hitz bakoitzaren posizioa erregistratzen du. Emaitza koordenatuekin makina-irakurgarria den testua da. Doitasuna jaisten da eskuizkribuak, tinta lausotua edo letra-tipografia zaharrak daudenean.

2. fasea - NLP Entitate Detekzioa

NEE (Entitate Izendatuen Ezagutza) OCR testua eskaneatzen du. Pertsona-izenak, erakundeak eta kokalekuak aurkitzen ditu. Patroi-parekatzeak SSNak, telefono-zenbakiak eta kontu-zenbakiak gehitzen ditu. Hit bakoitzak konfiantza-puntuazio bat jasotzen du.

3. fasea - Anonimizazioa

Detektatutako entitateak testu-irteeran ordezkatzen dira. Jatorrizko irudia ez da aldatzen. Irudia aldatzeko berariazko ezabatze-tresneriak behar dira. Testu anonimizatuak ezabatze-eskaerak, DSAR erantzunak eta betetze-erregistroak onartzen ditu.

OCR motor modernoek %98-99ko zehaztasuna lortzen dute inprimatutako orri garbietan. Eskuizkribuak edo eskaneatu degradatuak %85-92ra jaisten dira. Entitate-mailako zehaztasuna karaktere-mailakoa baino handiagoa izaten da. Izen bat identifika daiteke letra batzuk oker daudenean ere.

Ondorio praktikoa: OCR zehaztasunak eragina du zenbat entitate harrapatzen dituzun. Ez du metodoa funtzionatzen duen ala ez zehazten. %90eko zehaztasunean ere, izen eta zenbaki gehienak aurkitzen dituzu. Kalitate-mailak beharrezkoak dira. Metodoa bera soinua da.

Artxibo Handi bat Prozesatzea

Artxibo legatu handiek lau faseko lan-fluxua jarraitzen dute.

1. fasea - Inbentarioa: Zerrendatu irudi-oinarriko artxibo guztiak. Idatzi iturri-sistema eta data-tartea. Ezabatze-arrisku handiko erregistroak lehenengo. Bezeroei zuzendutako fitxategiak barrukoaren aurretik.

2. fasea - Lotekako prozesatzea: Exekutatu OCR eta PII detekzioa lotetan. Bost-hamar mila fitxategi loteko tamaina arrunta da. Prozesatzea gauean exekutatzen da. Emaitza PII txostena da eta fitxategi bakoitzeko testu-laburpen anonimizatua.

3. fasea - Ezabatze betearazpena: Gaiak bere izena eta aldia duen eskaera bidaltzen du. Bilatu anonimizatutako laburpenetan haien tokenak. Aurkitu fitxategiak. Berregin. Erregistratu ekintza.

4. fasea - Etengabeko betetzea: Sartu fitxategi eskaneatze berriak hodi beretik artxibatu aurretik. Gorde PII txostenak 30. artikuluko Prozesatze Jardueren Erregistroen froga gisa.

Kasu Azterketa: Lege-bulegoko Artxiboa

Lege-bulego baten ikuskaritzak 80.000 PDF bezero-kontratu irudi-oinarrikoak aurkitu zituen 1998tik 2010era eskaneatuak. PII tresna estandarrek zero detekzio erakutsi zuten. Irudi-formatua ikusezina zen.

Hamabost bezero ohik ezabatze-eskaerak aurkeztu zituzten aurreko 12 hilabeteetan. Enpresak esan zuen: "Ezin dugu baieztatu zure erregistroak ezabatu direla." Erantzun horrek ez du GDPR 17. artikulua betetzen.

Enpresak egin zuena:

OCR eta PII detekzioa exekutatu zituen 80.000 fitxategi guztietan 5.000ko lotetan
Prozesatzeak hiru aste inguru iraun zuen
Emaitza: 80.000 testu-laburpen anonimizatu fitxategi bakoitzeko txostenekin
Eraikitako indize bilagarria entitateak fitxategi IDrekin lotuz

Prozesatu ondoren:

Gai batentzako fitxategiak aurkitzea: batez beste 4 minutu
Fitxategiak eskaerako: batez beste 6-8
Ezabatze-denbora eskaerako: 20-30 minutu

15 eskaera guztiak 30 egunean ebatzi ziren.

Puntu nagusia: betetze-obligazioa prozesatu aurretik existitzen zen. Enpresak bete ahal izateko tresnak falta zitzaizkion. OCR-oinarriko prozesatzeak ez zuen betebehar berria sortu. Betebehar existente bat betetzea posible egin zuen.

OCR Mugak eta Kalitate-mailak

Eskuizkribuak OCR zehaztasun txikiagoa du. Ezarri konfiantza-atalase txikiagoa eskuizkribuzko edukia prozesatu aurretik.

Eskaneatu kalitate txarrak puntuazioak murrizten ditu. Kontraste-hobekuntzak eta lerrokatzeak laguntzen dute OCR exekutatu aurretik.

Ezohiko diseinu-osagarriak - zutabe anitzeko orriak, lege-letra-tipografia zaharrak - puntuazio txikiagoa lortzen dute.

Ezarri kalitate-mailak betetze-lanetarako:

Orri-zehaztasunaren %95 gainetik: exekutatu prozesatze automatizatua
%80-95: exekutatu prozesatze automatizatua, gero giza berrikuspena entitate markatuentzat
%80 azpitik: bidali eskuzko berrikuspena

Mailakatutako planteamendua arautzaileei erantzun argia ematen die fidagarritasuna nola ebaluatu zenuen jakiteko. Tresna automatizatu gehienek konfiantza handiko fitxategiak kudeatzen dituzte. Giza ilarak gainerakoak kudeatzen ditu. Rendimendua altu mantentzen da. Betetze-kalitatea ere altu mantentzen da.

Gure FAQ ak galdera arruntak OCR-oinarriko prozesatzeari eta ikuskaritza-ibilbideen eskakizunei buruz estaltzen ditu.

Iturburuak

Lotutako Artikuluak

GDPR & Betetze

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

Hasi Probako Bertsioa Ikusi Ezaugarriak

GDPR Dokumentu Eskaneatu Zaharrak: OCR + PII

Detekzio-hodi nola funtzionatzen duen

Artxibo Handi bat Prozesatzea

Kasu Azterketa: Lege-bulegoko Artxiboa

OCR Mugak eta Kalitate-mailak

Iturburuak

Lotutako Artikuluak

Autobertako PIIak betetze-auditoretzetan huts egiten du

Presidio GDPR 220+ entitate galtzen ditu

Konfigurazio-Desbideraketa: Ezkutuko GDPR Arriskua

Prest zure datuak babesteko?

GDPR Dokumentu Eskaneatu Zaharrak: OCR + PII

GDPR eta Eskaneatu Zaharra: OCR PII detektatzeko

Detekzio-hodi nola funtzionatzen duen

Artxibo Handi bat Prozesatzea

Kasu Azterketa: Lege-bulegoko Artxiboa

OCR Mugak eta Kalitate-mailak

Iturburuak

Lotutako Artikuluak

Autobertako PIIak betetze-auditoretzetan huts egiten du

Presidio GDPR 220+ entitate galtzen ditu

Konfigurazio-Desbideraketa: Ezkutuko GDPR Arriskua

Prest zure datuak babesteko?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow