Números CPR de Dinamarca: Guía de cumplimiento RGPD
Actualizado para 2026
La autoridad danesa de protección de datos, Datatilsynet, emitió 31 decisiones RGPD en 2024. Catorce de ellas involucraron datos de salud. Esta alta proporción refleja dos hechos: Dinamarca gestiona un gran sistema nacional de salud, y las brechas técnicas en ese sistema siguen exponiendo registros de pacientes.
La regla del dígito de control para números CPR
Un número CPR es el identificador personal danés. Tiene 10 dígitos en formato DDMMAA-XXXX. Los primeros seis dígitos son la fecha de nacimiento. Los últimos cuatro contienen un número de secuencia y un dígito de control.
El dígito de control usa una regla módulo 11:
- Tomar los dígitos del 1 al 9.
- Asignar un peso a cada uno: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Multiplicar cada dígito por su peso. Sumar todos los resultados.
- Dividir entre 11. Anotar el resto.
- Resto 0 → el dígito de control es 0.
- Resto 1 → el número no es válido.
- Resto 2–10 → el dígito de control es 11 menos el resto.
Esta regla es importante para cualquier herramienta que busque números CPR en texto. Algunas cadenas DDMMAA-XXXX nunca pueden ser válidas. Las herramientas que omiten este paso marcan fechas, códigos de factura y números de referencia como identificadores reales.
La revisión de 2024 de la autoridad encontró que el 67% de las herramientas NLP genéricas omiten esta comprobación. Esa brecha es el principal fallo técnico citado en los casos de salud de la autoridad.
Los cinco registros de salud de Dinamarca
Dinamarca vincula datos de salud a través de cinco registros nacionales. El identificador personal los une a todos.
- Registros de alta hospitalaria (desde 1977)
- Base de datos de prescripciones (desde 1995)
- Registro de cáncer (desde 1943)
- Registro de causas de muerte (desde 1970)
- Diagnósticos de atención primaria (desde 1990)
Esto hace que la investigación en salud danesa sea muy potente. También crea un riesgo. Eliminar el identificador en bruto no es suficiente. Un conjunto de datos que aún contiene edad, sexo, diagnóstico y año puede re-identificar personas, especialmente en enfermedades raras.
La guía de 2024 de Datatilsynet sobre el uso secundario de datos de salud establece tres requisitos.
Documentación técnica de anonimización: Registrar qué campos se eliminaron, cuáles se generalizaron y qué nivel de tamaño de grupo alcanza el resultado. Una declaración de política no cumple este estándar.
Revisión externa para conjuntos de datos grandes: Para conjuntos de datos con más de 5.000 personas, la autoridad recomienda una revisión técnica independiente de los pasos de des-identificación.
Minimización de datos: El conjunto de datos debe corresponder a la pregunta de investigación indicada. La autoridad encontró casos en que los equipos usaron registros nacionales completos cuando una muestra más pequeña habría bastado.
Consulte nuestra guía de detección de identificadores nacionales europeos para las reglas de dígitos de control aplicables a otros formatos de identificadores europeos.
Lo que revelaron los casos de 2024
Los 14 casos de salud comparten tres tipos de fallos comunes.
Compartición de datos de investigación: Un hospital envía un conjunto de datos de pacientes des-identificado a un socio académico para entrenar IA. El conjunto contiene partes de fechas de nacimiento, códigos de diagnóstico y fechas de tratamiento. La autoridad determina que esta combinación re-identifica a pacientes con enfermedades raras.
Servicios de IA de terceros: Una empresa de healthtech envía notas de pacientes a un servicio de IA estadounidense para documentación clínica. Los identificadores personales en esas notas no se eliminan antes del envío. No hay ningún mecanismo de transferencia válido establecido.
Fallos en pipelines OCR: Una aseguradora procesa formularios PDF escaneados para reclamaciones por discapacidad. Su herramienta OCR convierte imágenes en texto. Pero no ejecuta validación de dígitos de control en el resultado. Muchos identificadores no se detectan.
El OCR a menudo inserta espacios en medio de los números o desplaza guiones. La coincidencia simple de patrones falla con esas salidas. La detección debe funcionar en texto OCR, no solo en entrada limpia. Consulte nuestra guía de detección OCR en salud para pasos prácticos con documentos escaneados.
Los tres requisitos técnicos mínimos
Estos tres elementos forman la base del cumplimiento RGPD en salud para Dinamarca.
Pruebas de dígito de control en todos los textos: Ejecutar la comprobación módulo 11 completa en cada cadena candidata. Aplicarla tanto al texto limpio como a las salidas OCR.
Detección de nombres en danés: Usar un modelo entrenado con texto danés. El pipeline de spaCy da_core_news es una opción. Un modelo inglés genérico omite nombres daneses y nombres de organizaciones.
Documentación de des-identificación: Registrar qué se eliminó, qué se generalizó y el tamaño de grupo del resultado. La autoridad lo solicita en forma técnica, no como declaración de política.
Para datos sobre el coste financiero de los incidentes de datos de salud, consulte nuestro análisis de costes de brechas en salud.