CNIL Francia: Requisitos técnicos de herramientas PII para DPA
La CNIL de Francia es la autoridad de protección de datos más exigente técnicamente de la UE. La mayoría de las autoridades europeas redactan normas amplias. La CNIL va más lejos. Publica directrices técnicas precisas llamadas recommandations. Estas fijan estándares exactos para la anonimización y el uso de datos en IA.
Las resoluciones de la CNIL en 2024 citaron con frecuencia una anonimización deficiente en sistemas de IA. El organismo recibió 16.433 reclamaciones en 2023, un 43 % más que en 2022.
Las directrices de la CNIL moldean la política europea
Los textos técnicos de la CNIL son ampliamente citados por otras autoridades de datos de la UE. Dos guías son especialmente importantes.
Guide pratique de l'anonymisation (2023): Esta guía trata la k-anonimidad, la l-diversidad y la privacidad diferencial. Muestra cómo aplicar cada método a datos franceses. La IMY sueca y otros organismos europeos la citan en sus propias normas.
Orientaciones sobre sistemas de IA (2024): La CNIL enumera seis tipos de datos que deben tratarse en el entrenamiento de IA. Ninguna otra autoridad de la UE ha llegado tan lejos en materia de IA.
Normas de cookies: Las orientaciones de la CNIL sobre cookies fijan el listón técnico más alto para las herramientas de gestión del consentimiento en la UE. Se actualizan con frecuencia.
El NIR: el identificador más sensible de Francia
El Numéro d'Inscription au Répertoire (NIR) — también llamado numéro de sécurité sociale — es un número de la seguridad social francesa de 15 dígitos.
Su formato es: S AA MM DD CCC OOO K
- S — 1 dígito: sexo
- AA — año de nacimiento
- MM — mes de nacimiento
- DD — departamento de nacimiento (01–95, 2A/2B para Córcega, 97–99 ultramar, 99 extranjero)
- CCC — código de municipio
- OOO — orden de nacimiento
- K — clave de verificación de 2 dígitos (97 − (NIR mod 97))
El NIR agrupa sexo, fecha de nacimiento y lugar de nacimiento en un único número. La CNIL lo trata como dato de alto riesgo. Requiere el mismo nivel de cuidado que los datos de categorías especiales del artículo 9 del RGPD.
Por qué las herramientas fallan con el NIR: Las herramientas genéricas de NLP fallan con el NIR por tres razones. Primero, los 15 dígitos (escritos habitualmente sin separadores) se confunden con otras secuencias numéricas largas. Segundo, los dígitos 7 a 11 contienen un código departamental. Las herramientas que omiten la verificación mod-97 dejan pasar falsos positivos. Tercero, los departamentos corsos usan 2A y 2B, no dígitos puros. Las herramientas diseñadas para patrones exclusivamente numéricos fallan aquí.
Una buena detección del NIR requiere tres cosas: verificación de clave mod-97, un diccionario geográfico y reglas adaptadas a Córcega.
Consulte nuestra descripción general de cumplimiento de seguridad para ver cómo la cobertura de identificadores encaja en una estructura de protección del RGPD.
SIREN y SIRET: identificadores empresariales en archivos personales
SIREN: Identificador de empresa francesa de 9 dígitos con dígito de control Luhn. Aparece en todos los documentos comerciales franceses.
SIRET: Número de 14 dígitos formado por el SIREN (9 dígitos) más un código de establecimiento (5 dígitos). El SIRET identifica un establecimiento. El SIREN identifica la empresa.
Los archivos empresariales suelen contener números SIRET junto a nombres de empleados. La CNIL trata el par SIRET más nombre de persona como dato personal. Ese par activa las obligaciones del RGPD incluso sin un campo de datos personales independiente.
Seis pasos de anonimización para el entrenamiento de IA
Las orientaciones de IA de la CNIL de 2024 identifican seis tipos de datos. Cada uno debe tratarse antes de usar datos personales franceses en el entrenamiento de IA:
- Eliminar identificadores directos — Nombres, NIR, SIREN deben reemplazarse o eliminarse
- Generalizar cuasi-identificadores — Edad, departamento, profesión pueden combinarse para identificar personas; reducir su precisión
- Añadir ruido a los valores numéricos — Los campos numéricos necesitan ruido calibrado para bloquear inferencias
- Verificar la k-anonimidad — Cada persona debe parecerse a al menos k-1 otras; la CNIL orienta hacia k ≥ 5
- Verificar la l-diversidad — Los atributos sensibles deben variar dentro de cada grupo
- Evaluar el riesgo de re-identificación — Usar un método documentado antes de cualquier publicación de datos
Eliminar solo el NIR y el nombre completo no es suficiente. La CNIL lo ha constatado en sus procedimientos. Los cuasi-identificadores como el código postal y la especialidad médica también deben tratarse.
Nuestra guía de cumplimiento del RGPD cubre los registros que esperan ver las auditorías de la DPA francesa.
Contexto lingüístico para la detección de datos personales en francés
Francia presenta varios contextos lingüísticos que afectan a la detección.
El francés estándar es la lengua de todos los documentos oficiales. Los modelos NER deben gestionar caracteres acentuados: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Territorios de ultramar (DOM-TOM): Martinica, Guadalupe, Reunión, Guyana y Mayotte utilizan códigos NIR en el rango 97–98. Los patrones de nombres locales difieren del Francia metropolitana.
Alsacia-Mosela: Nombres de origen alemán y algunos formatos de documentos alemanes aparecen en registros franceses. Los modelos entrenados solo en francés estándar pueden pasar por alto estos nombres.
Uso transfronterizo: El francés belga usa un formato de identificador diferente. Las herramientas desplegadas en Francia y Bélgica necesitan reglas para cada formato.
Lo que su herramienta debe cubrir
El cumplimiento francés requiere cuatro capacidades técnicas:
- NIR con verificación mod-97 — El reconocimiento de patrones solo no es suficiente. Las herramientas deben ejecutar la verificación de clave y gestionar los códigos 2A/2B.
- SIREN/SIRET con verificación Luhn — Los identificadores empresariales aparecen en archivos personales y crean combinaciones de nombres cubiertas por el RGPD.
- NER en francés con soporte completo de acentos — Debe gestionar nombres compuestos (Jean-Pierre), partículas (de, du, des) y caracteres acentuados.
- Proceso documentado de seis pasos — Cualquier pipeline de entrenamiento de IA con datos franceses necesita un registro escrito para cada actividad de anonimización.