By · Last updated 2026-06-05

Itzuli BlogeraGDPR & Betetze

GDPR Dokumentu Eskaneatu Zaharrak: OCR + PII

GDPRren ezabatzeko eskubidea datu pertsonalei aplikatzen zaie 'formatua edozein dela ere'. Paper-artxiboetako irudi-oinarriko PDFak ez daude salbuetsita.

June 5, 20267 min irakurri
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR eta Eskaneatu Zaharra: OCR PII detektatzeko

2026rako eguneratua

GDPR ikuskaritzek arrisku ezkutu bera agertzen dute maiz: irudi-oinarriko PDF artxibo zaharrak.

Lege-bulegoak 20 urteko bezeroen fitxategi eskaneatuak dituzte. Ospitaleek hamarkadako gaixoen formularioak gorde dituzte. Gobernu-erakundeek erregistro eskaneatuak biltzen dituzte. Bankuek mailegu-fitxategi irudikatuak dituzte.

Artxibo hauek ezaugarri bat partekatzen dute. Fitxategiak trama-irudiak dira: PDF eskaneatuak, TIFF edo JPEG. Ez dago testu-geruzarik. PII tresna estandarrek ezin dituzte irakurri. Anonimizazio-tresna gehienentzat, fitxategi hauek ez dira existitzen.

Sinesmen arrunta: "Irudi-fitxategiak dira, GDPR ez da aplikatzen."

GDPR 17(1) artikuluak pertsonei ezabatzeko eskubidea ematen die. 26. Oharrak dio anonimizazioak informazio pertsonala aplikazio-eremutik kentzen duela. Biak ez dute irudi-formatuentzako salbuespenik ezartzen. 15 urteko bezero-fitxategi batentzako ezabatze-eskaera bete ezin duen lege-bulego batek betetze-hutsunea dauka. Ez dauka salbuespena.

Ikusi gure betetze-ikuspegia eta segurtasun-praktikak GDPRri nola laguntzen diogun jakiteko.

Detekzio-hodi nola funtzionatzen duen

Prozesuak hiru fasetan exekutatzen du.

1. fasea - OCR

OCR motorrak irudia irakurtzen du eta testua ateratzen du. Hitz bakoitzaren posizioa erregistratzen du. Emaitza koordenatuekin makina-irakurgarria den testua da. Doitasuna jaisten da eskuizkribuak, tinta lausotua edo letra-tipografia zaharrak daudenean.

2. fasea - NLP Entitate Detekzioa

NEE (Entitate Izendatuen Ezagutza) OCR testua eskaneatzen du. Pertsona-izenak, erakundeak eta kokalekuak aurkitzen ditu. Patroi-parekatzeak SSNak, telefono-zenbakiak eta kontu-zenbakiak gehitzen ditu. Hit bakoitzak konfiantza-puntuazio bat jasotzen du.

3. fasea - Anonimizazioa

Detektatutako entitateak testu-irteeran ordezkatzen dira. Jatorrizko irudia ez da aldatzen. Irudia aldatzeko berariazko ezabatze-tresneriak behar dira. Testu anonimizatuak ezabatze-eskaerak, DSAR erantzunak eta betetze-erregistroak onartzen ditu.

OCR motor modernoek %98-99ko zehaztasuna lortzen dute inprimatutako orri garbietan. Eskuizkribuak edo eskaneatu degradatuak %85-92ra jaisten dira. Entitate-mailako zehaztasuna karaktere-mailakoa baino handiagoa izaten da. Izen bat identifika daiteke letra batzuk oker daudenean ere.

Ondorio praktikoa: OCR zehaztasunak eragina du zenbat entitate harrapatzen dituzun. Ez du metodoa funtzionatzen duen ala ez zehazten. %90eko zehaztasunean ere, izen eta zenbaki gehienak aurkitzen dituzu. Kalitate-mailak beharrezkoak dira. Metodoa bera soinua da.

Artxibo Handi bat Prozesatzea

Artxibo legatu handiek lau faseko lan-fluxua jarraitzen dute.

1. fasea - Inbentarioa: Zerrendatu irudi-oinarriko artxibo guztiak. Idatzi iturri-sistema eta data-tartea. Ezabatze-arrisku handiko erregistroak lehenengo. Bezeroei zuzendutako fitxategiak barrukoaren aurretik.

2. fasea - Lotekako prozesatzea: Exekutatu OCR eta PII detekzioa lotetan. Bost-hamar mila fitxategi loteko tamaina arrunta da. Prozesatzea gauean exekutatzen da. Emaitza PII txostena da eta fitxategi bakoitzeko testu-laburpen anonimizatua.

3. fasea - Ezabatze betearazpena: Gaiak bere izena eta aldia duen eskaera bidaltzen du. Bilatu anonimizatutako laburpenetan haien tokenak. Aurkitu fitxategiak. Berregin. Erregistratu ekintza.

4. fasea - Etengabeko betetzea: Sartu fitxategi eskaneatze berriak hodi beretik artxibatu aurretik. Gorde PII txostenak 30. artikuluko Prozesatze Jardueren Erregistroen froga gisa.

Kasu Azterketa: Lege-bulegoko Artxiboa

Lege-bulego baten ikuskaritzak 80.000 PDF bezero-kontratu irudi-oinarrikoak aurkitu zituen 1998tik 2010era eskaneatuak. PII tresna estandarrek zero detekzio erakutsi zuten. Irudi-formatua ikusezina zen.

Hamabost bezero ohik ezabatze-eskaerak aurkeztu zituzten aurreko 12 hilabeteetan. Enpresak esan zuen: "Ezin dugu baieztatu zure erregistroak ezabatu direla." Erantzun horrek ez du GDPR 17. artikulua betetzen.

Enpresak egin zuena:

  • OCR eta PII detekzioa exekutatu zituen 80.000 fitxategi guztietan 5.000ko lotetan
  • Prozesatzeak hiru aste inguru iraun zuen
  • Emaitza: 80.000 testu-laburpen anonimizatu fitxategi bakoitzeko txostenekin
  • Eraikitako indize bilagarria entitateak fitxategi IDrekin lotuz

Prozesatu ondoren:

  • Gai batentzako fitxategiak aurkitzea: batez beste 4 minutu
  • Fitxategiak eskaerako: batez beste 6-8
  • Ezabatze-denbora eskaerako: 20-30 minutu

15 eskaera guztiak 30 egunean ebatzi ziren.

Puntu nagusia: betetze-obligazioa prozesatu aurretik existitzen zen. Enpresak bete ahal izateko tresnak falta zitzaizkion. OCR-oinarriko prozesatzeak ez zuen betebehar berria sortu. Betebehar existente bat betetzea posible egin zuen.

OCR Mugak eta Kalitate-mailak

Eskuizkribuak OCR zehaztasun txikiagoa du. Ezarri konfiantza-atalase txikiagoa eskuizkribuzko edukia prozesatu aurretik.

Eskaneatu kalitate txarrak puntuazioak murrizten ditu. Kontraste-hobekuntzak eta lerrokatzeak laguntzen dute OCR exekutatu aurretik.

Ezohiko diseinu-osagarriak - zutabe anitzeko orriak, lege-letra-tipografia zaharrak - puntuazio txikiagoa lortzen dute.

Ezarri kalitate-mailak betetze-lanetarako:

  • Orri-zehaztasunaren %95 gainetik: exekutatu prozesatze automatizatua
  • %80-95: exekutatu prozesatze automatizatua, gero giza berrikuspena entitate markatuentzat
  • %80 azpitik: bidali eskuzko berrikuspena

Mailakatutako planteamendua arautzaileei erantzun argia ematen die fidagarritasuna nola ebaluatu zenuen jakiteko. Tresna automatizatu gehienek konfiantza handiko fitxategiak kudeatzen dituzte. Giza ilarak gainerakoak kudeatzen ditu. Rendimendua altu mantentzen da. Betetze-kalitatea ere altu mantentzen da.

Gure FAQ ak galdera arruntak OCR-oinarriko prozesatzeari eta ikuskaritza-ibilbideen eskakizunei buruz estaltzen ditu.

Iturburuak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.