By · Last updated 2026-06-05

Tornar al BlogGDPR i Compliment

RGPD i documents escanejats antics: OCR per a PII

El dret a la supressio del RGPD s'aplica a les dades personals independentment del format. Els PDF basats en imatge procedents d'arxius en paper no estan exempts.

June 5, 20267 min llegit
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

RGPD i fitxers escanejats antics: OCR per a PII

Actualitzat per al 2026

Les auditories del RGPD solen descobrir el mateix risc ocult: arxius antics de PDF basats en imatge.

Les firmes d'advocats conserven 20 anys de fitxers de clients escanejats. Els hospitals guarden decades de formularis de pacients. Els organismes governamentals emmagatzemen registres escanejats. Els bancs tenen fitxers de prestecs digitalitzats.

Aquests arxius comparteixen un tret comu. Els fitxers son imatges de trama: PDF escanejats, TIFF o JPEG. No hi ha capa de text. Les eines PII estandard no els poden llegir. Per a la majoria d'eines d'anonimitzacio, aquests fitxers simplement no existeixen.

Una creenca habitual: "Aquests son fitxers d'imatge; el RGPD no s'aplica."

L'article 17(1) del RGPD atorga a les persones el dret a la supressio. El considerant 26 estableix que l'anonimitzacio elimina la informacio personal de l'ambit d'aplicacio. Cap d'ells preveu una excepcio per als formats d'imatge. Una firma d'advocats que no pugui atendre una sol.licitud de supressio d'un fitxer de client de fa 15 anys te una llacuna de compliment. No disposa d'una exempcio.

Consulteu el nostre resum de compliment i les practiques de seguretat per saber com donem suport al RGPD.

Com funciona el pipeline de deteccio

El proces s'executa en tres etapes.

Etapa 1 - OCR

El motor OCR llegeix la imatge i n'extreu el text. Registra la posicio de cada paraula. La sortida es text llegible per maquina amb coordenades. La precisio disminueix quan hi ha escriptura a ma, tinta esvaida o tipografies antigues.

Etapa 2 - Deteccio d'entitats NLP

El Reconeixement d'Entitats Nombrades (NER) analitza el text OCR. Troba noms de persones, organitzacions i localitzacions. La concordanca de patrons afegeix NSS, numeros de telefon i numeros de compte. Cada coincidencia obte una puntuacio de confianca.

Etapa 3 - Anonimitzacio

Les entitats detectades es substitueixen a la sortida de text. La imatge original no es modifica. Modificar la imatge requereix eines de redaccio separades. El text anonimitzat dona suport a les sol.licituds de supressio, les respostes a DSAR i els registres de compliment.

Els motors OCR moderns assoleixen una precisio del 98-99% de caracters en pagines impreses netes. L'escriptura a ma o els escanejats degradats baixen al 85-92%. La precisio a nivell d'entitat tendeix a ser superior a la precisio a nivell de caracter. Un nom pot identificar-se fins i tot quan algunes lletres son incorrectes.

La conclusio practica: la precisio OCR afecta quantes entitats es capturen. No determina si el metode funciona. Fins i tot amb un 90% de precisio, es troben la majoria de noms i numeros. Encara calen nivells de qualitat. El metode en si es solid.

Processament d'un arxiu gran

Els arxius heretats grans segueixen un flux de treball de quatre fases.

Fase 1 - Inventari: Llista tots els arxius basats en imatge. Anota el sistema d'origen i el rang de dates. Prioritza els registres amb major risc de supressio. Els fitxers orientats al client van abans que els interns.

Fase 2 - Processament per lots: Executa l'OCR i la deteccio de PII en lots. Cinc a deu mil fitxers per lot es una mida habitual. El processament s'executa durant la nit. La sortida es un informe de PII i un extracte de text anonimitzat per a cada fitxer.

Fase 3 - Compliment de les sol.licituds de supressio: L'interessat envia una sol.licitud amb el seu nom i el periode. Cerca els seus tokens als extractes anonimitzats. Troba els fitxers. Redacta'ls. Registra l'accio.

Fase 4 - Compliment continuat: Fa passar els nous fitxers escanejats pel mateix pipeline abans d'arxivar-los. Conserva els informes PII com a evidencia dels Registres d'Activitats de Tractament de l'Article 30.

Cas d'us: arxiu d'una firma d'advocats

Una auditoria d'una firma d'advocats va trobar 80.000 contractes de clients en PDF basats en imatge escanejats entre 1998 i 2010. Les eines PII estandard van mostrar zero deteccions. El format d'imatge era invisible.

Quinze antics clients havien presentat sol.licituds de supressio durant els 12 mesos anteriors. La firma va respondre: "No podem confirmar que els vostres registres hagin estat eliminats." Aquesta resposta no compleix l'Article 17 del RGPD.

Que va fer la firma:

  • Va executar OCR i deteccio de PII en els 80.000 fitxers en lots de 5.000
  • El processament va durar aproximadament tres setmanes
  • Resultat: 80.000 extractes de text anonimitzats amb informes per fitxer
  • Va crear un index consultable que vincula les entitats als ID de fitxer

Despres del processament:

  • Temps per trobar fitxers d'un interessat: 4 minuts de mitjana
  • Fitxers per sol.licitud: 6-8 de mitjana
  • Temps de redaccio per sol.licitud: 20-30 minuts

Totes les 15 sol.licituds pendents es van resoldre en 30 dies.

El punt clau: l'obligacio de compliment existia abans del processament. A la firma simplement li faltaven les eines per complir-la. El processament basat en OCR no va crear un nou deure. Va fer possible complir un deure ja existent.

Limits de l'OCR i nivells de qualitat

L'escriptura a ma te una precisio OCR inferior. Estableix un llindar de confianca mes baix abans de processar contingut escrit a ma.

La baixa qualitat d'escanejat redueix les puntuacions. La millora del contrast i la correccio de la inclinacio ajuden abans d'executar l'OCR.

Els dissenys inusuals - pagines de diverses columnes, tipografies legals antigues - tambe poden puntuar mes baix.

Estableix nivells de qualitat per al treball de compliment:

  • Per sobre del 95% de precisio de pagina: executa el processament automatitzat
  • 80-95%: executa el processament automatitzat i despres revisio humana per a les entitats marcades
  • Per sota del 80%: envia a revisio manual

Un enfocament per nivells dona als reguladors una resposta clara sobre com s'ha avaluat la fiabilitat. La majoria d'eines automatitzades gestionen els fitxers d'alta confianca. Una cua manual gestiona la resta. El rendiment es manté alt. La qualitat del compliment tambe es manté alta.

Les nostres FAQ cobreixen preguntes habituals sobre el processament basat en OCR i els requisits de rastre d'auditoria.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.