By · Last updated 2026-05-18

Volver al BlogGDPR y Cumplimiento

Datatilsynet Dinamarca: Validación del Módulo-11 del...

El 67% de las herramientas de PLN no cumplen con la validación del módulo-11 del número CPR danés.

May 18, 20267 min de lectura
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

La autoridad de protección de datos de Dinamarca, Datatilsynet, emitió 31 decisiones de cumplimiento del GDPR en 2024, de las cuales 14 involucraban específicamente sistemas de datos de salud, una concentración que refleja la alta importancia de la infraestructura nacional de datos de salud de Dinamarca y las fallas técnicas que exponen repetidamente los datos de los pacientes.

Número CPR: El Requisito del Módulo-11

El número CPR (Det Centrale Personregister-nummer) — 10 dígitos, formato DDMMYY-XXXX — codifica la fecha de nacimiento (dígitos 1-6) y un número secuencial con dígito de verificación (dígitos 7-10). El último dígito se valida utilizando aritmética de módulo-11:

Validación de módulo-11: multiplica los dígitos 1-9 por los pesos (4,3,2,7,6,5,4,3,2), suma, toma el módulo 11. Si el resultado es 0, el dígito de verificación = 0. Si el resultado es 1, el CPR es inválido (no existe un dígito de verificación válido para este prefijo). De lo contrario, el dígito de verificación = 11 menos el resultado.

Esto crea la propiedad importante de que algunos patrones DDMMYY-XXXX nunca pueden ser números CPR válidos (aquellos donde el cálculo de módulo-11 produce 1). Las herramientas que hacen coincidencia de patrones en números de 10 dígitos formateados como DDMMYY-XXXX sin validación de módulo-11 generan falsos positivos a partir de cadenas de fecha, números de referencia y códigos de factura.

El 67% de las herramientas de PLN genéricas carecen de implementación del módulo-11 del CPR (Datatilsynet 2024). Este fallo de detección es la deficiencia técnica más citada en las acciones de cumplimiento en el sector salud de Datatilsynet.

Ecosistema de Investigación de Datos de Salud en Dinamarca

Los registros de salud de Dinamarca — entre los conjuntos de datos de salud longitudinal más completos del mundo — están vinculados a través del número CPR. El CPR permite a los investigadores vincular:

  • Registros de alta hospitalaria (desde 1977)
  • Base de datos de recetas (desde 1995)
  • Registro de cáncer (desde 1943)
  • Registro de causa de muerte (desde 1970)
  • Datos de diagnóstico de atención primaria (desde 1990)

Esta capacidad de vinculación hace que la investigación en salud danesa sea de clase mundial, pero crea un riesgo de re-identificación que Datatilsynet toma en serio: incluso los conjuntos de datos "desidentificados" que retienen atributos vinculados al CPR (edad, sexo, diagnóstico, año) pueden ser re-identificados en combinación con otros conjuntos de datos.

La guía de Datatilsynet de 2024 sobre el uso secundario de datos de salud requiere que las organizaciones que utilizan estos registros demuestren:

Documentación técnica de anonimización: No es una declaración de política, sino documentación técnica que muestra exactamente qué identificadores fueron eliminados, qué cuasi-identificadores fueron generalizados y qué nivel de k-anonimato se logró en el conjunto de datos de salida.

Validación de terceros para conjuntos de datos de investigación: Para conjuntos de datos de investigación con más de 5,000 individuos, Datatilsynet recomienda una revisión técnica independiente de los procedimientos de anonimización.

Minimización de datos: El alcance del conjunto de datos de investigación debe coincidir con la pregunta de investigación documentada. Datatilsynet ha encontrado múltiples casos donde los investigadores utilizaron registros nacionales completos cuando una muestra aleatoria o un conjunto de datos geográficamente limitado habría servido al propósito de investigación.

Hallazgos Específicos de Cumplimiento en Salud

Las 14 decisiones de cumplimiento en salud de Datatilsynet en 2024 documentan fallas técnicas recurrentes:

Patrón de caso 1: El hospital comparte un conjunto de datos de pacientes desidentificados con un socio de investigación académica para entrenamiento de IA. El conjunto de datos contiene componentes de fecha de nacimiento CPR, códigos de diagnóstico y fechas de tratamiento. Datatilsynet encuentra que la combinación permite la re-identificación de pacientes con enfermedades raras (problema de denominador pequeño — diagnósticos inusuales restringen significativamente la identificación).

Patrón de caso 2: Una startup de tecnología de salud procesa datos de pacientes daneses a través de una API de IA basada en EE. UU. para soporte de documentación clínica. Los números CPR en notas médicas se transmiten a servidores en EE. UU. sin un mecanismo de transferencia adecuado y sin detección y eliminación previa del CPR.

Patrón de caso 3: Una compañía de seguros procesa datos de certificados médicos para reclamaciones de discapacidad. Los números CPR en certificados PDF escaneados no son detectados por el pipeline de OCR-plus-extracción de la compañía (OCR convierte imagen a texto; el texto se procesa pero sin validación del CPR, muchos números CPR se pierden en la salida del OCR debido a artefactos de formato).

El modo de fallo de OCR-plus-extracción es particularmente común en contextos de salud donde los documentos se reciben como imágenes escaneadas. La detección de CPR debe funcionar en texto procesado por OCR, que a menudo introduce inconsistencias de formato (espacios insertados en medio del número, errores en la posición del guion) que rompen la coincidencia de patrones simples.

Para el cumplimiento del GDPR en salud danesa: la detección de CPR con validación de módulo-11 en texto limpio y salida procesada por OCR, NER en danés (spaCy da_core_news) y documentación técnica de anonimización que cumpla con los estándares de uso secundario de Datatilsynet de 2024 son los requisitos mínimos.

Fuentes:

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.