By · Last updated 2026-06-05

Volver al BlogGDPR y Cumplimiento

GDPR y Archivos de Documentos Legados...

El derecho a la eliminación del GDPR se aplica a los datos personales 'independientemente del formato'.

June 5, 20267 min de lectura
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

RGPD y archivos escaneados heredados: OCR para la detección de PII

Actualizado para 2026

Las auditorías del RGPD frecuentemente descubren el mismo riesgo oculto: archivos PDF en formato imagen anteriores a la digitalización.

Los despachos de abogados conservan 20 años de archivos de clientes escaneados. Los hospitales guardan décadas de formularios de pacientes. Los organismos públicos almacenan registros escaneados. Los bancos tienen expedientes de préstamos en formato imagen.

Estos archivos comparten un rasgo. Los ficheros son imágenes raster — PDF escaneados, TIFF o JPEG. No existe capa de texto. Las herramientas PII estándar no pueden leerlos. Para la mayoría de las herramientas de anonimización, estos ficheros simplemente no existen.

Una creencia común: "Son archivos de imagen — el RGPD no aplica."

El artículo 17(1) del RGPD otorga a las personas el derecho de supresión. El considerando 26 establece que la anonimización excluye la información del ámbito de aplicación. Ninguna disposición prevé excepciones para formatos imagen. Un despacho que no puede atender una solicitud de supresión de un expediente de hace 15 años tiene una brecha de cumplimiento, no una exención.

Consulte nuestro resumen de cumplimiento y nuestras prácticas de seguridad para ver cómo apoyamos el RGPD.

Cómo funciona el pipeline de detección

El proceso se ejecuta en tres etapas.

Etapa 1 — OCR

El motor OCR lee la imagen y extrae el texto. Registra la posición de cada palabra. La salida es texto legible por máquina con coordenadas. La precisión disminuye con escritura manuscrita, tinta desvaída o tipografías antiguas.

Etapa 2 — Detección de entidades NLP

El Reconocimiento de Entidades Nombradas (NER) analiza el texto OCR. Encuentra nombres de personas, organizaciones y lugares. La coincidencia de patrones añade números de seguridad social, teléfonos y números de cuenta. Cada coincidencia recibe una puntuación de confianza.

Etapa 3 — Anonimización

Las entidades detectadas se reemplazan en el texto de salida. La imagen original no se modifica. Modificar la imagen requiere herramientas de redacción separadas. El texto anonimizado permite responder a solicitudes de supresión, DSAR y generar registros de cumplimiento.

Los motores OCR modernos alcanzan entre 98 y 99 % de precisión a nivel de caracteres en páginas impresas con buena calidad. La escritura manuscrita o los escaneos deteriorados bajan a 85–92 %. La precisión a nivel de entidad tiende a ser mayor que a nivel de carácter. Un nombre puede identificarse aunque algunos caracteres sean incorrectos.

La conclusión práctica: la precisión OCR afecta cuántas entidades se detectan. No determina si el método funciona. Incluso al 90 % de precisión se encuentran la mayoría de nombres y números. Aún se necesitan niveles de calidad. El método en sí es sólido.

Procesamiento de un archivo grande

Los archivos heredados grandes siguen un flujo de trabajo de cuatro fases.

Fase 1 — Inventario: Listar todos los archivos en formato imagen por sistema fuente y rango de fechas. Priorizar los registros con mayor riesgo de supresión. Los ficheros de clientes van antes que los internos.

Fase 2 — Procesamiento por lotes: Ejecutar OCR y detección PII en lotes. Cinco a diez mil ficheros por lote es un tamaño habitual. El procesamiento se ejecuta de noche. La salida es un informe PII y un extracto de texto anonimizado por fichero.

Fase 3 — Atención de solicitudes de supresión: El interesado envía una solicitud con su nombre y el período. Buscar en los extractos anonimizados sus tokens. Localizar los ficheros. Redactarlos. Registrar la acción.

Fase 4 — Cumplimiento continuo: Pasar los nuevos ficheros escaneados por el mismo pipeline antes de archivarlos. Conservar los informes PII como evidencia para el Registro de Actividades de Tratamiento del Artículo 30.

Caso práctico: archivo de un despacho de abogados

Una auditoría encontró 80.000 contratos de clientes en PDF en formato imagen escaneados entre 1998 y 2010. Las herramientas PII estándar devolvieron cero detecciones. El formato imagen era invisible.

Quince antiguos clientes habían presentado solicitudes de supresión en los 12 meses anteriores. El despacho respondió: "No podemos confirmar que sus registros hayan sido eliminados." Esa respuesta no cumple con el Artículo 17 del RGPD.

Lo que hizo el despacho:

  • OCR y detección PII en los 80.000 ficheros en lotes de 5.000
  • Tiempo de procesamiento: aproximadamente tres semanas
  • Resultado: 80.000 extractos de texto anonimizados con informes por fichero
  • Índice de búsqueda que vincula entidades a identificadores de fichero

Tras el procesamiento:

  • Tiempo medio para localizar ficheros de un interesado: 4 minutos
  • Ficheros por solicitud: promedio de 6–8
  • Tiempo de redacción por solicitud: 20–30 minutos

Las 15 solicitudes pendientes se resolvieron en 30 días.

El punto clave: la obligación de cumplimiento existía antes del procesamiento. Al despacho simplemente le faltaban las herramientas. El procesamiento OCR no creó una nueva obligación. Hizo posible cumplir una ya existente.

Limitaciones del OCR y niveles de calidad

La escritura manuscrita tiene menor precisión OCR. Establecer un umbral de confianza más bajo antes de procesar contenido manuscrito.

La mala calidad de escaneo reduce las puntuaciones. La mejora del contraste y la corrección de la inclinación ayudan antes de ejecutar el OCR.

Los diseños inusuales — páginas multicolumna, tipografías legales antiguas — también pueden obtener puntuaciones más bajas.

Establecer niveles de calidad para el trabajo de cumplimiento:

  • Por encima del 95 % de precisión de página: procesamiento automatizado
  • 80–95 %: procesamiento automatizado y revisión humana de entidades marcadas
  • Por debajo del 80 %: revisión manual obligatoria

Un enfoque por niveles ofrece a los reguladores una respuesta clara sobre cómo se evaluó la fiabilidad. Las herramientas automatizadas gestionan los ficheros de alta confianza. Una cola manual gestiona el resto. El rendimiento se mantiene alto. La calidad de cumplimiento también.

Nuestras preguntas frecuentes responden a consultas habituales sobre el procesamiento OCR y los requisitos de registro de auditoría.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.