By · Last updated 2026-06-05

Retour au blogGDPR & Conformité

CNIL France : Ce que l'autorité de protection des...

La CNIL a traité 16 433 plaintes en 2023 (+43 %). 63 % des avis de la CNIL citent une anonymisation inappropriée de l'IA.

June 5, 20269 min de lecture
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNIL France : Exigences PII des outils de protection des données

La CNIL est l'autorité de protection des données la plus exigeante sur le plan technique dans l'UE. La plupart des autorités européennes rédigent des règles générales. La CNIL va plus loin. Elle publie des orientations techniques précises appelées recommandations. Celles-ci fixent des normes exactes pour l'anonymisation et l'utilisation des données dans l'IA.

Les mises en demeure de la CNIL en 2024 ont souvent cité une anonymisation insuffisante dans les systèmes d'IA. L'autorité a reçu 16 433 plaintes en 2023, soit 43 % de plus qu'en 2022.

Les orientations de la CNIL influencent la politique européenne

Les textes techniques de la CNIL sont fréquemment cités par d'autres autorités de protection des données de l'UE. Deux guides sont particulièrement importants.

Guide pratique de l'anonymisation (2023) : Ce guide traite de la k-anonymisation, de la l-diversité et de la confidentialité différentielle. Il montre comment appliquer chaque méthode aux données françaises. L'IMY suédoise et d'autres autorités de l'UE s'y réfèrent dans leurs propres règles.

Recommandations sur les systèmes d'IA (2024) : La CNIL liste six types de données à traiter dans le cadre de l'entraînement de l'IA. Aucune autre autorité de l'UE n'est allée aussi loin sur le sujet de l'IA.

Règles sur les cookies : Les orientations de la CNIL sur les cookies fixent le niveau technique le plus élevé pour les outils de gestion du consentement dans l'UE. Elles sont mises à jour régulièrement.

Le NIR : l'identifiant le plus sensible en France

Le Numéro d'Inscription au Répertoire (NIR) — aussi appelé numéro de sécurité sociale — est un numéro de sécurité sociale français à 15 chiffres.

Son format est : S AA MM DD CCC OOO K

  • S — 1 chiffre : sexe
  • AA — année de naissance
  • MM — mois de naissance
  • DD — département de naissance (01–95, 2A/2B pour la Corse, 97–99 outre-mer, 99 étranger)
  • CCC — code de la commune
  • OOO — numéro d'ordre de naissance
  • K — clé de contrôle à 2 chiffres (97 − (NIR mod 97))

Le NIR regroupe le sexe, la date de naissance et le lieu de naissance dans un seul nombre. La CNIL le traite comme une donnée à haut risque. Il nécessite le même niveau de protection que les données de catégories particulières au sens de l'article 9 du RGPD.

Pourquoi les outils ratent le NIR : Les outils NLP génériques échouent sur le NIR pour trois raisons. Premièrement, les 15 chiffres (souvent écrits sans espacement) ressemblent à d'autres longues séquences de chiffres. Deuxièmement, les chiffres 7 à 11 contiennent un code départemental. Les outils qui sautent la vérification mod-97 laissent passer des faux positifs. Troisièmement, les départements corses utilisent 2A et 2B, et non des chiffres seuls. Les outils conçus pour des motifs exclusivement numériques échouent ici.

Une bonne détection du NIR nécessite trois éléments : la vérification de clé mod-97, un dictionnaire géographique et des règles adaptées à la Corse.

Consultez notre présentation de la conformité sécurité pour voir comment la couverture des identifiants s'inscrit dans un cadre de protection RGPD.

SIREN et SIRET : les identifiants d'entreprise dans les fichiers personnels

SIREN : Identifiant à 9 chiffres d'une entreprise française avec un chiffre de contrôle Luhn. Il figure dans tous les documents commerciaux français.

SIRET : Numéro à 14 chiffres composé du SIREN (9 chiffres) et d'un code établissement (5 chiffres). Le SIRET identifie un site. Le SIREN identifie l'entreprise.

Les fichiers professionnels contiennent souvent des numéros SIRET à côté des noms de salariés. La CNIL traite l'association SIRET et nom de personne comme une donnée personnelle. Ce couple déclenche les obligations du RGPD, même sans champ de données personnelles distinct.

Six étapes d'anonymisation pour l'entraînement de l'IA

Les recommandations IA de la CNIL de 2024 identifient six types de données. Chacun doit être traité avant d'utiliser des données personnelles françaises dans l'entraînement de l'IA :

  1. Suppression des identifiants directs — Noms, NIR, SIREN doivent être remplacés ou supprimés
  2. Généralisation des quasi-identifiants — Âge, département, profession peuvent se combiner pour identifier des personnes ; réduire leur précision
  3. Ajout de bruit aux valeurs numériques — Les champs numériques nécessitent un bruit calibré pour bloquer les inférences
  4. Vérification de la k-anonymisation — Chaque personne doit ressembler à au moins k-1 autres ; la CNIL oriente vers k ≥ 5
  5. Vérification de la l-diversité — Les attributs sensibles doivent varier au sein de chaque groupe
  6. Évaluation du risque de réidentification — Utiliser une méthode documentée avant toute diffusion de données

Supprimer le NIR et le nom complet seul ne suffit pas. La CNIL l'a établi dans ses décisions. Les quasi-identifiants tels que le code postal et la spécialité médicale doivent également être traités.

Notre guide de conformité RGPD couvre les documents attendus lors des contrôles de la CNIL.

Contexte linguistique pour la détection des données personnelles françaises

La France présente plusieurs contextes linguistiques qui influent sur la détection.

Le français standard est la langue de tous les documents officiels. Les modèles NER doivent traiter les caractères accentués : é, è, ê, ë, à, â, î, ô, û, ç, œ.

Territoires d'outre-mer (DOM-TOM) : La Martinique, la Guadeloupe, La Réunion, la Guyane et Mayotte utilisent des codes NIR dans la plage 97–98. Les conventions de noms locaux diffèrent de celles de la métropole.

Alsace-Moselle : Des noms d'origine allemande et certains formats de documents allemands apparaissent dans les archives françaises. Les modèles entraînés uniquement sur le français standard peuvent rater ces noms.

Usage transfrontalier : Le français belge utilise un format d'identifiant différent. Les outils déployés en France et en Belgique ont besoin de règles pour chaque format.

Ce que votre outil doit couvrir

La conformité française exige quatre capacités techniques :

  1. NIR avec vérification mod-97 — La reconnaissance de motifs seule ne suffit pas. Les outils doivent exécuter la vérification de clé et gérer les codes 2A/2B.
  2. SIREN/SIRET avec vérification Luhn — Les identifiants d'entreprise apparaissent dans les fichiers personnels et créent des combinaisons de noms couverts par le RGPD.
  3. NER français avec prise en charge complète des accents — Doit gérer les noms composés (Jean-Pierre), les particules (de, du, des) et les caractères accentués.
  4. Processus documenté en six étapes — Tout pipeline d'entraînement IA sur des données françaises nécessite un enregistrement écrit pour chaque activité d'anonymisation.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.