CNIL France : Exigences PII des outils de protection des données
La CNIL est l'autorité de protection des données la plus exigeante sur le plan technique dans l'UE. La plupart des autorités européennes rédigent des règles générales. La CNIL va plus loin. Elle publie des orientations techniques précises appelées recommandations. Celles-ci fixent des normes exactes pour l'anonymisation et l'utilisation des données dans l'IA.
Les mises en demeure de la CNIL en 2024 ont souvent cité une anonymisation insuffisante dans les systèmes d'IA. L'autorité a reçu 16 433 plaintes en 2023, soit 43 % de plus qu'en 2022.
Les orientations de la CNIL influencent la politique européenne
Les textes techniques de la CNIL sont fréquemment cités par d'autres autorités de protection des données de l'UE. Deux guides sont particulièrement importants.
Guide pratique de l'anonymisation (2023) : Ce guide traite de la k-anonymisation, de la l-diversité et de la confidentialité différentielle. Il montre comment appliquer chaque méthode aux données françaises. L'IMY suédoise et d'autres autorités de l'UE s'y réfèrent dans leurs propres règles.
Recommandations sur les systèmes d'IA (2024) : La CNIL liste six types de données à traiter dans le cadre de l'entraînement de l'IA. Aucune autre autorité de l'UE n'est allée aussi loin sur le sujet de l'IA.
Règles sur les cookies : Les orientations de la CNIL sur les cookies fixent le niveau technique le plus élevé pour les outils de gestion du consentement dans l'UE. Elles sont mises à jour régulièrement.
Le NIR : l'identifiant le plus sensible en France
Le Numéro d'Inscription au Répertoire (NIR) — aussi appelé numéro de sécurité sociale — est un numéro de sécurité sociale français à 15 chiffres.
Son format est : S AA MM DD CCC OOO K
- S — 1 chiffre : sexe
- AA — année de naissance
- MM — mois de naissance
- DD — département de naissance (01–95, 2A/2B pour la Corse, 97–99 outre-mer, 99 étranger)
- CCC — code de la commune
- OOO — numéro d'ordre de naissance
- K — clé de contrôle à 2 chiffres (97 − (NIR mod 97))
Le NIR regroupe le sexe, la date de naissance et le lieu de naissance dans un seul nombre. La CNIL le traite comme une donnée à haut risque. Il nécessite le même niveau de protection que les données de catégories particulières au sens de l'article 9 du RGPD.
Pourquoi les outils ratent le NIR : Les outils NLP génériques échouent sur le NIR pour trois raisons. Premièrement, les 15 chiffres (souvent écrits sans espacement) ressemblent à d'autres longues séquences de chiffres. Deuxièmement, les chiffres 7 à 11 contiennent un code départemental. Les outils qui sautent la vérification mod-97 laissent passer des faux positifs. Troisièmement, les départements corses utilisent 2A et 2B, et non des chiffres seuls. Les outils conçus pour des motifs exclusivement numériques échouent ici.
Une bonne détection du NIR nécessite trois éléments : la vérification de clé mod-97, un dictionnaire géographique et des règles adaptées à la Corse.
Consultez notre présentation de la conformité sécurité pour voir comment la couverture des identifiants s'inscrit dans un cadre de protection RGPD.
SIREN et SIRET : les identifiants d'entreprise dans les fichiers personnels
SIREN : Identifiant à 9 chiffres d'une entreprise française avec un chiffre de contrôle Luhn. Il figure dans tous les documents commerciaux français.
SIRET : Numéro à 14 chiffres composé du SIREN (9 chiffres) et d'un code établissement (5 chiffres). Le SIRET identifie un site. Le SIREN identifie l'entreprise.
Les fichiers professionnels contiennent souvent des numéros SIRET à côté des noms de salariés. La CNIL traite l'association SIRET et nom de personne comme une donnée personnelle. Ce couple déclenche les obligations du RGPD, même sans champ de données personnelles distinct.
Six étapes d'anonymisation pour l'entraînement de l'IA
Les recommandations IA de la CNIL de 2024 identifient six types de données. Chacun doit être traité avant d'utiliser des données personnelles françaises dans l'entraînement de l'IA :
- Suppression des identifiants directs — Noms, NIR, SIREN doivent être remplacés ou supprimés
- Généralisation des quasi-identifiants — Âge, département, profession peuvent se combiner pour identifier des personnes ; réduire leur précision
- Ajout de bruit aux valeurs numériques — Les champs numériques nécessitent un bruit calibré pour bloquer les inférences
- Vérification de la k-anonymisation — Chaque personne doit ressembler à au moins k-1 autres ; la CNIL oriente vers k ≥ 5
- Vérification de la l-diversité — Les attributs sensibles doivent varier au sein de chaque groupe
- Évaluation du risque de réidentification — Utiliser une méthode documentée avant toute diffusion de données
Supprimer le NIR et le nom complet seul ne suffit pas. La CNIL l'a établi dans ses décisions. Les quasi-identifiants tels que le code postal et la spécialité médicale doivent également être traités.
Notre guide de conformité RGPD couvre les documents attendus lors des contrôles de la CNIL.
Contexte linguistique pour la détection des données personnelles françaises
La France présente plusieurs contextes linguistiques qui influent sur la détection.
Le français standard est la langue de tous les documents officiels. Les modèles NER doivent traiter les caractères accentués : é, è, ê, ë, à, â, î, ô, û, ç, œ.
Territoires d'outre-mer (DOM-TOM) : La Martinique, la Guadeloupe, La Réunion, la Guyane et Mayotte utilisent des codes NIR dans la plage 97–98. Les conventions de noms locaux diffèrent de celles de la métropole.
Alsace-Moselle : Des noms d'origine allemande et certains formats de documents allemands apparaissent dans les archives françaises. Les modèles entraînés uniquement sur le français standard peuvent rater ces noms.
Usage transfrontalier : Le français belge utilise un format d'identifiant différent. Les outils déployés en France et en Belgique ont besoin de règles pour chaque format.
Ce que votre outil doit couvrir
La conformité française exige quatre capacités techniques :
- NIR avec vérification mod-97 — La reconnaissance de motifs seule ne suffit pas. Les outils doivent exécuter la vérification de clé et gérer les codes 2A/2B.
- SIREN/SIRET avec vérification Luhn — Les identifiants d'entreprise apparaissent dans les fichiers personnels et créent des combinaisons de noms couverts par le RGPD.
- NER français avec prise en charge complète des accents — Doit gérer les noms composés (Jean-Pierre), les particules (de, du, des) et les caractères accentués.
- Processus documenté en six étapes — Tout pipeline d'entraînement IA sur des données françaises nécessite un enregistrement écrit pour chaque activité d'anonymisation.