By · Last updated 2026-06-05

Volver al BlogGDPR y Cumplimiento

CNIL Francia: Lo que la autoridad de protección de...

La CNIL procesó 16,433 quejas en 2023 (+43%). El 63% de los avisos de la CNIL citan una anonimización inadecuada de la IA.

June 5, 20269 min de lectura
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL Francia: Requisitos técnicos de herramientas PII para DPA

La CNIL de Francia es la autoridad de protección de datos más exigente técnicamente de la UE. La mayoría de las autoridades europeas redactan normas amplias. La CNIL va más lejos. Publica directrices técnicas precisas llamadas recommandations. Estas fijan estándares exactos para la anonimización y el uso de datos en IA.

Las resoluciones de la CNIL en 2024 citaron con frecuencia una anonimización deficiente en sistemas de IA. El organismo recibió 16.433 reclamaciones en 2023, un 43 % más que en 2022.

Las directrices de la CNIL moldean la política europea

Los textos técnicos de la CNIL son ampliamente citados por otras autoridades de datos de la UE. Dos guías son especialmente importantes.

Guide pratique de l'anonymisation (2023): Esta guía trata la k-anonimidad, la l-diversidad y la privacidad diferencial. Muestra cómo aplicar cada método a datos franceses. La IMY sueca y otros organismos europeos la citan en sus propias normas.

Orientaciones sobre sistemas de IA (2024): La CNIL enumera seis tipos de datos que deben tratarse en el entrenamiento de IA. Ninguna otra autoridad de la UE ha llegado tan lejos en materia de IA.

Normas de cookies: Las orientaciones de la CNIL sobre cookies fijan el listón técnico más alto para las herramientas de gestión del consentimiento en la UE. Se actualizan con frecuencia.

El NIR: el identificador más sensible de Francia

El Numéro d'Inscription au Répertoire (NIR) — también llamado numéro de sécurité sociale — es un número de la seguridad social francesa de 15 dígitos.

Su formato es: S AA MM DD CCC OOO K

  • S — 1 dígito: sexo
  • AA — año de nacimiento
  • MM — mes de nacimiento
  • DD — departamento de nacimiento (01–95, 2A/2B para Córcega, 97–99 ultramar, 99 extranjero)
  • CCC — código de municipio
  • OOO — orden de nacimiento
  • K — clave de verificación de 2 dígitos (97 − (NIR mod 97))

El NIR agrupa sexo, fecha de nacimiento y lugar de nacimiento en un único número. La CNIL lo trata como dato de alto riesgo. Requiere el mismo nivel de cuidado que los datos de categorías especiales del artículo 9 del RGPD.

Por qué las herramientas fallan con el NIR: Las herramientas genéricas de NLP fallan con el NIR por tres razones. Primero, los 15 dígitos (escritos habitualmente sin separadores) se confunden con otras secuencias numéricas largas. Segundo, los dígitos 7 a 11 contienen un código departamental. Las herramientas que omiten la verificación mod-97 dejan pasar falsos positivos. Tercero, los departamentos corsos usan 2A y 2B, no dígitos puros. Las herramientas diseñadas para patrones exclusivamente numéricos fallan aquí.

Una buena detección del NIR requiere tres cosas: verificación de clave mod-97, un diccionario geográfico y reglas adaptadas a Córcega.

Consulte nuestra descripción general de cumplimiento de seguridad para ver cómo la cobertura de identificadores encaja en una estructura de protección del RGPD.

SIREN y SIRET: identificadores empresariales en archivos personales

SIREN: Identificador de empresa francesa de 9 dígitos con dígito de control Luhn. Aparece en todos los documentos comerciales franceses.

SIRET: Número de 14 dígitos formado por el SIREN (9 dígitos) más un código de establecimiento (5 dígitos). El SIRET identifica un establecimiento. El SIREN identifica la empresa.

Los archivos empresariales suelen contener números SIRET junto a nombres de empleados. La CNIL trata el par SIRET más nombre de persona como dato personal. Ese par activa las obligaciones del RGPD incluso sin un campo de datos personales independiente.

Seis pasos de anonimización para el entrenamiento de IA

Las orientaciones de IA de la CNIL de 2024 identifican seis tipos de datos. Cada uno debe tratarse antes de usar datos personales franceses en el entrenamiento de IA:

  1. Eliminar identificadores directos — Nombres, NIR, SIREN deben reemplazarse o eliminarse
  2. Generalizar cuasi-identificadores — Edad, departamento, profesión pueden combinarse para identificar personas; reducir su precisión
  3. Añadir ruido a los valores numéricos — Los campos numéricos necesitan ruido calibrado para bloquear inferencias
  4. Verificar la k-anonimidad — Cada persona debe parecerse a al menos k-1 otras; la CNIL orienta hacia k ≥ 5
  5. Verificar la l-diversidad — Los atributos sensibles deben variar dentro de cada grupo
  6. Evaluar el riesgo de re-identificación — Usar un método documentado antes de cualquier publicación de datos

Eliminar solo el NIR y el nombre completo no es suficiente. La CNIL lo ha constatado en sus procedimientos. Los cuasi-identificadores como el código postal y la especialidad médica también deben tratarse.

Nuestra guía de cumplimiento del RGPD cubre los registros que esperan ver las auditorías de la DPA francesa.

Contexto lingüístico para la detección de datos personales en francés

Francia presenta varios contextos lingüísticos que afectan a la detección.

El francés estándar es la lengua de todos los documentos oficiales. Los modelos NER deben gestionar caracteres acentuados: é, è, ê, ë, à, â, î, ô, û, ç, œ.

Territorios de ultramar (DOM-TOM): Martinica, Guadalupe, Reunión, Guyana y Mayotte utilizan códigos NIR en el rango 97–98. Los patrones de nombres locales difieren del Francia metropolitana.

Alsacia-Mosela: Nombres de origen alemán y algunos formatos de documentos alemanes aparecen en registros franceses. Los modelos entrenados solo en francés estándar pueden pasar por alto estos nombres.

Uso transfronterizo: El francés belga usa un formato de identificador diferente. Las herramientas desplegadas en Francia y Bélgica necesitan reglas para cada formato.

Lo que su herramienta debe cubrir

El cumplimiento francés requiere cuatro capacidades técnicas:

  1. NIR con verificación mod-97 — El reconocimiento de patrones solo no es suficiente. Las herramientas deben ejecutar la verificación de clave y gestionar los códigos 2A/2B.
  2. SIREN/SIRET con verificación Luhn — Los identificadores empresariales aparecen en archivos personales y crean combinaciones de nombres cubiertas por el RGPD.
  3. NER en francés con soporte completo de acentos — Debe gestionar nombres compuestos (Jean-Pierre), partículas (de, du, des) y caracteres acentuados.
  4. Proceso documentado de seis pasos — Cualquier pipeline de entrenamiento de IA con datos franceses necesita un registro escrito para cada actividad de anonimización.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.