RGPD y archivos escaneados heredados: OCR para la detección de PII

Actualizado para 2026

Las auditorías del RGPD frecuentemente descubren el mismo riesgo oculto: archivos PDF en formato imagen anteriores a la digitalización.

Los despachos de abogados conservan 20 años de archivos de clientes escaneados. Los hospitales guardan décadas de formularios de pacientes. Los organismos públicos almacenan registros escaneados. Los bancos tienen expedientes de préstamos en formato imagen.

Estos archivos comparten un rasgo. Los ficheros son imágenes raster — PDF escaneados, TIFF o JPEG. No existe capa de texto. Las herramientas PII estándar no pueden leerlos. Para la mayoría de las herramientas de anonimización, estos ficheros simplemente no existen.

Una creencia común: "Son archivos de imagen — el RGPD no aplica."

El artículo 17(1) del RGPD otorga a las personas el derecho de supresión. El considerando 26 establece que la anonimización excluye la información del ámbito de aplicación. Ninguna disposición prevé excepciones para formatos imagen. Un despacho que no puede atender una solicitud de supresión de un expediente de hace 15 años tiene una brecha de cumplimiento, no una exención.

Consulte nuestro resumen de cumplimiento y nuestras prácticas de seguridad para ver cómo apoyamos el RGPD.

Cómo funciona el pipeline de detección

El proceso se ejecuta en tres etapas.

Etapa 1 — OCR

El motor OCR lee la imagen y extrae el texto. Registra la posición de cada palabra. La salida es texto legible por máquina con coordenadas. La precisión disminuye con escritura manuscrita, tinta desvaída o tipografías antiguas.

Etapa 2 — Detección de entidades NLP

El Reconocimiento de Entidades Nombradas (NER) analiza el texto OCR. Encuentra nombres de personas, organizaciones y lugares. La coincidencia de patrones añade números de seguridad social, teléfonos y números de cuenta. Cada coincidencia recibe una puntuación de confianza.

Etapa 3 — Anonimización

Las entidades detectadas se reemplazan en el texto de salida. La imagen original no se modifica. Modificar la imagen requiere herramientas de redacción separadas. El texto anonimizado permite responder a solicitudes de supresión, DSAR y generar registros de cumplimiento.

Los motores OCR modernos alcanzan entre 98 y 99 % de precisión a nivel de caracteres en páginas impresas con buena calidad. La escritura manuscrita o los escaneos deteriorados bajan a 85–92 %. La precisión a nivel de entidad tiende a ser mayor que a nivel de carácter. Un nombre puede identificarse aunque algunos caracteres sean incorrectos.

La conclusión práctica: la precisión OCR afecta cuántas entidades se detectan. No determina si el método funciona. Incluso al 90 % de precisión se encuentran la mayoría de nombres y números. Aún se necesitan niveles de calidad. El método en sí es sólido.

Procesamiento de un archivo grande

Los archivos heredados grandes siguen un flujo de trabajo de cuatro fases.

Fase 1 — Inventario: Listar todos los archivos en formato imagen por sistema fuente y rango de fechas. Priorizar los registros con mayor riesgo de supresión. Los ficheros de clientes van antes que los internos.

Fase 2 — Procesamiento por lotes: Ejecutar OCR y detección PII en lotes. Cinco a diez mil ficheros por lote es un tamaño habitual. El procesamiento se ejecuta de noche. La salida es un informe PII y un extracto de texto anonimizado por fichero.

Fase 3 — Atención de solicitudes de supresión: El interesado envía una solicitud con su nombre y el período. Buscar en los extractos anonimizados sus tokens. Localizar los ficheros. Redactarlos. Registrar la acción.

Fase 4 — Cumplimiento continuo: Pasar los nuevos ficheros escaneados por el mismo pipeline antes de archivarlos. Conservar los informes PII como evidencia para el Registro de Actividades de Tratamiento del Artículo 30.

Caso práctico: archivo de un despacho de abogados

Una auditoría encontró 80.000 contratos de clientes en PDF en formato imagen escaneados entre 1998 y 2010. Las herramientas PII estándar devolvieron cero detecciones. El formato imagen era invisible.

Quince antiguos clientes habían presentado solicitudes de supresión en los 12 meses anteriores. El despacho respondió: "No podemos confirmar que sus registros hayan sido eliminados." Esa respuesta no cumple con el Artículo 17 del RGPD.

Lo que hizo el despacho:

OCR y detección PII en los 80.000 ficheros en lotes de 5.000
Tiempo de procesamiento: aproximadamente tres semanas
Resultado: 80.000 extractos de texto anonimizados con informes por fichero
Índice de búsqueda que vincula entidades a identificadores de fichero

Tras el procesamiento:

Tiempo medio para localizar ficheros de un interesado: 4 minutos
Ficheros por solicitud: promedio de 6–8
Tiempo de redacción por solicitud: 20–30 minutos

Las 15 solicitudes pendientes se resolvieron en 30 días.

El punto clave: la obligación de cumplimiento existía antes del procesamiento. Al despacho simplemente le faltaban las herramientas. El procesamiento OCR no creó una nueva obligación. Hizo posible cumplir una ya existente.

Limitaciones del OCR y niveles de calidad

La escritura manuscrita tiene menor precisión OCR. Establecer un umbral de confianza más bajo antes de procesar contenido manuscrito.

La mala calidad de escaneo reduce las puntuaciones. La mejora del contraste y la corrección de la inclinación ayudan antes de ejecutar el OCR.

Los diseños inusuales — páginas multicolumna, tipografías legales antiguas — también pueden obtener puntuaciones más bajas.

Establecer niveles de calidad para el trabajo de cumplimiento:

Por encima del 95 % de precisión de página: procesamiento automatizado
80–95 %: procesamiento automatizado y revisión humana de entidades marcadas
Por debajo del 80 %: revisión manual obligatoria

Un enfoque por niveles ofrece a los reguladores una respuesta clara sobre cómo se evaluó la fiabilidad. Las herramientas automatizadas gestionan los ficheros de alta confianza. Una cola manual gestiona el resto. El rendimiento se mantiene alto. La calidad de cumplimiento también.

Nuestras preguntas frecuentes responden a consultas habituales sobre el procesamiento OCR y los requisitos de registro de auditoría.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

Iniciar Prueba Gratuita Ver Características

GDPR y Archivos de Documentos Legados...

RGPD y archivos escaneados heredados: OCR para la detección de PII

Cómo funciona el pipeline de detección

Procesamiento de un archivo grande

Caso práctico: archivo de un despacho de abogados

Limitaciones del OCR y niveles de calidad

Fuentes

Artículos Relacionados

Por qué las herramientas de PII autoalojadas fallan...

Lo que Presidio no incluye: Los 220+ tipos de...

El costo de cumplimiento de la redacción...

¿Listo para proteger sus datos?

GDPR y Archivos de Documentos Legados...

RGPD y archivos escaneados heredados: OCR para la detección de PII

Cómo funciona el pipeline de detección

Procesamiento de un archivo grande

Caso práctico: archivo de un despacho de abogados

Limitaciones del OCR y niveles de calidad

Fuentes

Artículos Relacionados

Por qué las herramientas de PII autoalojadas fallan...

Lo que Presidio no incluye: Los 220+ tipos de...

El costo de cumplimiento de la redacción...

¿Listo para proteger sus datos?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow