RGPD i fitxers escanejats antics: OCR per a PII
Actualitzat per al 2026
Les auditories del RGPD solen descobrir el mateix risc ocult: arxius antics de PDF basats en imatge.
Les firmes d'advocats conserven 20 anys de fitxers de clients escanejats. Els hospitals guarden decades de formularis de pacients. Els organismes governamentals emmagatzemen registres escanejats. Els bancs tenen fitxers de prestecs digitalitzats.
Aquests arxius comparteixen un tret comu. Els fitxers son imatges de trama: PDF escanejats, TIFF o JPEG. No hi ha capa de text. Les eines PII estandard no els poden llegir. Per a la majoria d'eines d'anonimitzacio, aquests fitxers simplement no existeixen.
Una creenca habitual: "Aquests son fitxers d'imatge; el RGPD no s'aplica."
L'article 17(1) del RGPD atorga a les persones el dret a la supressio. El considerant 26 estableix que l'anonimitzacio elimina la informacio personal de l'ambit d'aplicacio. Cap d'ells preveu una excepcio per als formats d'imatge. Una firma d'advocats que no pugui atendre una sol.licitud de supressio d'un fitxer de client de fa 15 anys te una llacuna de compliment. No disposa d'una exempcio.
Consulteu el nostre resum de compliment i les practiques de seguretat per saber com donem suport al RGPD.
Com funciona el pipeline de deteccio
El proces s'executa en tres etapes.
Etapa 1 - OCR
El motor OCR llegeix la imatge i n'extreu el text. Registra la posicio de cada paraula. La sortida es text llegible per maquina amb coordenades. La precisio disminueix quan hi ha escriptura a ma, tinta esvaida o tipografies antigues.
Etapa 2 - Deteccio d'entitats NLP
El Reconeixement d'Entitats Nombrades (NER) analitza el text OCR. Troba noms de persones, organitzacions i localitzacions. La concordanca de patrons afegeix NSS, numeros de telefon i numeros de compte. Cada coincidencia obte una puntuacio de confianca.
Etapa 3 - Anonimitzacio
Les entitats detectades es substitueixen a la sortida de text. La imatge original no es modifica. Modificar la imatge requereix eines de redaccio separades. El text anonimitzat dona suport a les sol.licituds de supressio, les respostes a DSAR i els registres de compliment.
Els motors OCR moderns assoleixen una precisio del 98-99% de caracters en pagines impreses netes. L'escriptura a ma o els escanejats degradats baixen al 85-92%. La precisio a nivell d'entitat tendeix a ser superior a la precisio a nivell de caracter. Un nom pot identificar-se fins i tot quan algunes lletres son incorrectes.
La conclusio practica: la precisio OCR afecta quantes entitats es capturen. No determina si el metode funciona. Fins i tot amb un 90% de precisio, es troben la majoria de noms i numeros. Encara calen nivells de qualitat. El metode en si es solid.
Processament d'un arxiu gran
Els arxius heretats grans segueixen un flux de treball de quatre fases.
Fase 1 - Inventari: Llista tots els arxius basats en imatge. Anota el sistema d'origen i el rang de dates. Prioritza els registres amb major risc de supressio. Els fitxers orientats al client van abans que els interns.
Fase 2 - Processament per lots: Executa l'OCR i la deteccio de PII en lots. Cinc a deu mil fitxers per lot es una mida habitual. El processament s'executa durant la nit. La sortida es un informe de PII i un extracte de text anonimitzat per a cada fitxer.
Fase 3 - Compliment de les sol.licituds de supressio: L'interessat envia una sol.licitud amb el seu nom i el periode. Cerca els seus tokens als extractes anonimitzats. Troba els fitxers. Redacta'ls. Registra l'accio.
Fase 4 - Compliment continuat: Fa passar els nous fitxers escanejats pel mateix pipeline abans d'arxivar-los. Conserva els informes PII com a evidencia dels Registres d'Activitats de Tractament de l'Article 30.
Cas d'us: arxiu d'una firma d'advocats
Una auditoria d'una firma d'advocats va trobar 80.000 contractes de clients en PDF basats en imatge escanejats entre 1998 i 2010. Les eines PII estandard van mostrar zero deteccions. El format d'imatge era invisible.
Quinze antics clients havien presentat sol.licituds de supressio durant els 12 mesos anteriors. La firma va respondre: "No podem confirmar que els vostres registres hagin estat eliminats." Aquesta resposta no compleix l'Article 17 del RGPD.
Que va fer la firma:
- Va executar OCR i deteccio de PII en els 80.000 fitxers en lots de 5.000
- El processament va durar aproximadament tres setmanes
- Resultat: 80.000 extractes de text anonimitzats amb informes per fitxer
- Va crear un index consultable que vincula les entitats als ID de fitxer
Despres del processament:
- Temps per trobar fitxers d'un interessat: 4 minuts de mitjana
- Fitxers per sol.licitud: 6-8 de mitjana
- Temps de redaccio per sol.licitud: 20-30 minuts
Totes les 15 sol.licituds pendents es van resoldre en 30 dies.
El punt clau: l'obligacio de compliment existia abans del processament. A la firma simplement li faltaven les eines per complir-la. El processament basat en OCR no va crear un nou deure. Va fer possible complir un deure ja existent.
Limits de l'OCR i nivells de qualitat
L'escriptura a ma te una precisio OCR inferior. Estableix un llindar de confianca mes baix abans de processar contingut escrit a ma.
La baixa qualitat d'escanejat redueix les puntuacions. La millora del contrast i la correccio de la inclinacio ajuden abans d'executar l'OCR.
Els dissenys inusuals - pagines de diverses columnes, tipografies legals antigues - tambe poden puntuar mes baix.
Estableix nivells de qualitat per al treball de compliment:
- Per sobre del 95% de precisio de pagina: executa el processament automatitzat
- 80-95%: executa el processament automatitzat i despres revisio humana per a les entitats marcades
- Per sota del 80%: envia a revisio manual
Un enfocament per nivells dona als reguladors una resposta clara sobre com s'ha avaluat la fiabilitat. La majoria d'eines automatitzades gestionen els fitxers d'alta confianca. Una cua manual gestiona la resta. El rendiment es manté alt. La qualitat del compliment tambe es manté alta.
Les nostres FAQ cobreixen preguntes habituals sobre el processament basat en OCR i els requisits de rastre d'auditoria.