RGPD i fitxers escanejats antics: OCR per a PII

Actualitzat per al 2026

Les auditories del RGPD solen descobrir el mateix risc ocult: arxius antics de PDF basats en imatge.

Les firmes d'advocats conserven 20 anys de fitxers de clients escanejats. Els hospitals guarden decades de formularis de pacients. Els organismes governamentals emmagatzemen registres escanejats. Els bancs tenen fitxers de prestecs digitalitzats.

Aquests arxius comparteixen un tret comu. Els fitxers son imatges de trama: PDF escanejats, TIFF o JPEG. No hi ha capa de text. Les eines PII estandard no els poden llegir. Per a la majoria d'eines d'anonimitzacio, aquests fitxers simplement no existeixen.

Una creenca habitual: "Aquests son fitxers d'imatge; el RGPD no s'aplica."

L'article 17(1) del RGPD atorga a les persones el dret a la supressio. El considerant 26 estableix que l'anonimitzacio elimina la informacio personal de l'ambit d'aplicacio. Cap d'ells preveu una excepcio per als formats d'imatge. Una firma d'advocats que no pugui atendre una sol.licitud de supressio d'un fitxer de client de fa 15 anys te una llacuna de compliment. No disposa d'una exempcio.

Consulteu el nostre resum de compliment i les practiques de seguretat per saber com donem suport al RGPD.

Com funciona el pipeline de deteccio

El proces s'executa en tres etapes.

Etapa 1 - OCR

El motor OCR llegeix la imatge i n'extreu el text. Registra la posicio de cada paraula. La sortida es text llegible per maquina amb coordenades. La precisio disminueix quan hi ha escriptura a ma, tinta esvaida o tipografies antigues.

Etapa 2 - Deteccio d'entitats NLP

El Reconeixement d'Entitats Nombrades (NER) analitza el text OCR. Troba noms de persones, organitzacions i localitzacions. La concordanca de patrons afegeix NSS, numeros de telefon i numeros de compte. Cada coincidencia obte una puntuacio de confianca.

Etapa 3 - Anonimitzacio

Les entitats detectades es substitueixen a la sortida de text. La imatge original no es modifica. Modificar la imatge requereix eines de redaccio separades. El text anonimitzat dona suport a les sol.licituds de supressio, les respostes a DSAR i els registres de compliment.

Els motors OCR moderns assoleixen una precisio del 98-99% de caracters en pagines impreses netes. L'escriptura a ma o els escanejats degradats baixen al 85-92%. La precisio a nivell d'entitat tendeix a ser superior a la precisio a nivell de caracter. Un nom pot identificar-se fins i tot quan algunes lletres son incorrectes.

La conclusio practica: la precisio OCR afecta quantes entitats es capturen. No determina si el metode funciona. Fins i tot amb un 90% de precisio, es troben la majoria de noms i numeros. Encara calen nivells de qualitat. El metode en si es solid.

Processament d'un arxiu gran

Els arxius heretats grans segueixen un flux de treball de quatre fases.

Fase 1 - Inventari: Llista tots els arxius basats en imatge. Anota el sistema d'origen i el rang de dates. Prioritza els registres amb major risc de supressio. Els fitxers orientats al client van abans que els interns.

Fase 2 - Processament per lots: Executa l'OCR i la deteccio de PII en lots. Cinc a deu mil fitxers per lot es una mida habitual. El processament s'executa durant la nit. La sortida es un informe de PII i un extracte de text anonimitzat per a cada fitxer.

Fase 3 - Compliment de les sol.licituds de supressio: L'interessat envia una sol.licitud amb el seu nom i el periode. Cerca els seus tokens als extractes anonimitzats. Troba els fitxers. Redacta'ls. Registra l'accio.

Fase 4 - Compliment continuat: Fa passar els nous fitxers escanejats pel mateix pipeline abans d'arxivar-los. Conserva els informes PII com a evidencia dels Registres d'Activitats de Tractament de l'Article 30.

Cas d'us: arxiu d'una firma d'advocats

Una auditoria d'una firma d'advocats va trobar 80.000 contractes de clients en PDF basats en imatge escanejats entre 1998 i 2010. Les eines PII estandard van mostrar zero deteccions. El format d'imatge era invisible.

Quinze antics clients havien presentat sol.licituds de supressio durant els 12 mesos anteriors. La firma va respondre: "No podem confirmar que els vostres registres hagin estat eliminats." Aquesta resposta no compleix l'Article 17 del RGPD.

Que va fer la firma:

Va executar OCR i deteccio de PII en els 80.000 fitxers en lots de 5.000
El processament va durar aproximadament tres setmanes
Resultat: 80.000 extractes de text anonimitzats amb informes per fitxer
Va crear un index consultable que vincula les entitats als ID de fitxer

Despres del processament:

Temps per trobar fitxers d'un interessat: 4 minuts de mitjana
Fitxers per sol.licitud: 6-8 de mitjana
Temps de redaccio per sol.licitud: 20-30 minuts

Totes les 15 sol.licituds pendents es van resoldre en 30 dies.

El punt clau: l'obligacio de compliment existia abans del processament. A la firma simplement li faltaven les eines per complir-la. El processament basat en OCR no va crear un nou deure. Va fer possible complir un deure ja existent.

Limits de l'OCR i nivells de qualitat

L'escriptura a ma te una precisio OCR inferior. Estableix un llindar de confianca mes baix abans de processar contingut escrit a ma.

La baixa qualitat d'escanejat redueix les puntuacions. La millora del contrast i la correccio de la inclinacio ajuden abans d'executar l'OCR.

Els dissenys inusuals - pagines de diverses columnes, tipografies legals antigues - tambe poden puntuar mes baix.

Estableix nivells de qualitat per al treball de compliment:

Per sobre del 95% de precisio de pagina: executa el processament automatitzat
80-95%: executa el processament automatitzat i despres revisio humana per a les entitats marcades
Per sota del 80%: envia a revisio manual

Un enfocament per nivells dona als reguladors una resposta clara sobre com s'ha avaluat la fiabilitat. La majoria d'eines automatitzades gestionen els fitxers d'alta confianca. Una cua manual gestiona la resta. El rendiment es manté alt. La qualitat del compliment tambe es manté alta.

Les nostres FAQ cobreixen preguntes habituals sobre el processament basat en OCR i els requisits de rastre d'auditoria.

Fonts

Articles Relacionats

GDPR i Compliment

Les eines de IIP allotjades localment fallen les auditories de compliment

spaCy 3.4.4 produeix resultats NER diferents que spaCy 3.5.1. Una empresa de serveis financers descobreix que el 3% dels documents van ser anonimitzats de manera diferent en staging vs. produccio.

GDPR i Compliment

Presidio no detecta mes de 220 entitats del RGPD

Presidio inclou uns 40 reconeixedors d'entitats per defecte centrats en identificadors dels EUA. Les organitzacions europees necessiten IBAN, Codice Fiscale i molts mes.

GDPR i Compliment

Deriva de Configuració: Un Risc Ocult del RGPD

L'analista A substitueix noms per pseudoníms. L'analista B els ratlla. La teva auditoria RGPD troba tots dos en el mateix conjunt de dades. La deriva de configuració -- on els membres de l'equip apliquen normes de manera diferent -- és un risc real de compliment.

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

Comença Prova Gratuïta Veure Funcions

RGPD i documents escanejats antics: OCR per a PII

RGPD i fitxers escanejats antics: OCR per a PII

Com funciona el pipeline de deteccio

Processament d'un arxiu gran

Cas d'us: arxiu d'una firma d'advocats

Limits de l'OCR i nivells de qualitat

Fonts

Articles Relacionats

Les eines de IIP allotjades localment fallen les auditories de compliment

Presidio no detecta mes de 220 entitats del RGPD

Deriva de Configuració: Un Risc Ocult del RGPD

Preparat per protegir les vostres dades?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow