La Comisión Nacional de Informática y Libertades (CNIL) de Francia es la autoridad de protección de datos más exigente técnicamente de la UE. Mientras que otras autoridades de protección de datos (DPAs) se centran principalmente en el cumplimiento procedimental, la CNIL publica guías técnicas detalladas — "recomendaciones" — que establecen estándares algorítmicos específicos para la anonimización, pseudonimización y gobernanza de datos de IA. El 63% de los avisos formales de la CNIL en 2024 citaron una anonimización inadecuada en los sistemas de IA.
La influencia técnica de la CNIL más allá de Francia
La guía técnica de la CNIL es citada rutinariamente por otras DPAs de la UE:
Guía práctica de la anonimización (2023): La guía práctica de anonimización de la CNIL cubre k-anonimato, l-diversidad, privacidad diferencial y su aplicación práctica a conjuntos de datos franceses. Más de 12 DPAs de la UE hacen referencia a esta guía en su propia orientación de cumplimiento (incluida IMY Suecia, que produjo su propia versión basada en parte en la metodología de la CNIL).
Orientación sobre sistemas de IA (2024): La guía de gobernanza de IA de la CNIL cubre 6 categorías de anonimización obligatorias para datos de entrenamiento de IA — la guía más específica de una DPA de la UE sobre este tema.
Requisitos técnicos de cookies: La guía de cumplimiento de cookies de la CNIL (actualizada regularmente) requiere implementaciones técnicas específicas para plataformas de gestión de consentimiento — la guía de DPA más técnica sobre tecnología de consentimiento en la UE.
El NIR: El identificador más sensible de Francia
El Número de Inscripción en el Registro (NIR) — también llamado número de seguridad social — es un número de seguridad social francés de 15 dígitos en el formato:
S AAMMDDCCC OOO K
Donde:
- S = 1 dígito: sexo (1=masculino, 2=femenino)
- AA = 2 dígitos: año de nacimiento
- MM = 2 dígitos: mes de nacimiento
- DD = 2 dígitos: departamento de nacimiento (01-95, 2A/2B para Córcega, 97-99 para territorios de ultramar, 99 para nacimiento en el extranjero)
- CCC = 3 dígitos: código de municipio dentro del departamento
- OOO = 3 dígitos: número de orden de nacimiento
- K = 2 dígitos: clave de verificación (97 - (NIR mod 97))
El NIR codifica sexo, fecha de nacimiento, lugar de nacimiento y orden de nacimiento — lo que lo convierte en uno de los identificadores nacionales más ricos en información de la UE. La CNIL clasifica el NIR como un dato que requiere una protección elevada equivalente a los datos de categoría especial.
Desafío de detección: Las herramientas genéricas de PLN pasan por alto el NIR en el 78% de los documentos según el análisis de la CNIL de 2024. Las fallas específicas:
- La estructura de 15 dígitos del NIR (sin separadores en muchos documentos) se confunde con otras secuencias largas de números
- La codificación de departamento/municipio (dígitos 7-11) requiere conocimiento geográfico para validar — las herramientas que no implementan el cálculo de la clave mod-97 no pueden distinguir números de NIR válidos de falsos positivos
- Los departamentos corsos (2A/2B — letras, no dígitos) rompen las herramientas de coincidencia de patrones que esperan solo caracteres numéricos
SIREN/SIRET: Identificadores de negocios en documentos franceses
Número SIREN: Número de identificación de empresa francés de 9 dígitos con dígito de verificación de Luhn. Aparece en todos los documentos comerciales franceses.
Número SIRET: Extensión de 14 dígitos del SIREN (número SIREN de 9 dígitos + número de establecimiento de 5 dígitos). El SIRET identifica de manera única un establecimiento comercial específico, mientras que el SIREN identifica la entidad empresarial.
Los documentos comerciales contienen frecuentemente números SIRET junto con datos personales de los representantes de la empresa — la guía de cumplimiento de la CNIL trata la combinación de SIRET + nombre individual como información identificable que activa las obligaciones del GDPR.
Requisitos de anonimización de IA de la CNIL
La guía de IA de la CNIL de 2024 requiere 6 categorías específicas de anonimización para datos de entrenamiento de IA que involucran datos personales franceses:
- Eliminación de identificadores: Los identificadores explícitos (nombre, NIR, SIREN) deben ser reemplazados por seudónimos o eliminados
- Generalización de cuasi-identificadores: Los atributos que podrían permitir la re-identificación en combinación (edad, departamento, profesión) deben ser generalizados para reducir la especificidad
- Adición de ruido: Los atributos numéricos deben tener ruido calibrado añadido para prevenir inferencias
- Verificación de k-anonimato: Cada individuo en el conjunto de datos debe ser indistinguible de al menos k-1 otros (la CNIL recomienda k≥5)
- Verificación de l-diversidad: Los valores de atributos sensibles deben tener una diversidad adecuada dentro de cada clase de equivalencia
- Evaluación del riesgo de re-identificación: Antes de la publicación, los conjuntos de datos deben someterse a una evaluación del riesgo de re-identificación utilizando una metodología documentada
La CNIL ha encontrado explícitamente que simplemente eliminar el NIR y el nombre completo de un conjunto de datos no es una anonimización suficiente. También deben abordarse otros cuasi-identificadores (edad, código postal, profesión, especialidad médica).
Contexto bilingüe francés/idioma regional
Francia tiene una situación lingüística compleja relevante para la detección de PII:
Francés metropolitano: Francés estándar hablado en Francia — idioma principal de todos los documentos oficiales.
Identificadores DOM-TOM: Los territorios de ultramar (Martinica, Guadalupe, Reunión, Guayana, Mayotte) tienen sus propios códigos administrativos en los números NIR (prefijo 97, 98 para departamentos de ultramar) y convenciones de nombres locales.
Contexto alsaciano: La región de Alsacia-Mosela tiene convenciones administrativas alemanas históricas — nombres de origen alemán y algunos formatos de documentos administrativos alemanes aparecen en los registros administrativos franceses.
Francés belga: Para organizaciones que operan en Francia y Bélgica, los formatos de identificadores franceses y belgas difieren (NIR vs. número de registro nacional belga), y el francés belga utiliza convenciones de nombres ligeramente diferentes.
Para el cumplimiento francés: detección de NIR con validación de clave mod-97, detección de SIREN/SIRET con validación de Luhn, NER en francés con soporte de caracteres acentuados (é, è, ê, ë, à, â, î, ô, û, ç, œ), y anonimización documentada que cumpla con el marco de 6 categorías de la CNIL para datos de entrenamiento de IA.
Fuentes: