La Commission Nationale de l'Informatique et des Libertés (CNIL) est l'autorité de protection des données la plus exigeante sur le plan technique de l'UE. Alors que d'autres APD se concentrent principalement sur la conformité procédurale, la CNIL publie des directives techniques détaillées — "recommandations" — qui établissent des normes algorithmiques spécifiques pour l'anonymisation, la pseudonymisation et la gouvernance des données d'IA. 63 % des avis formels de la CNIL en 2024 citaient une anonymisation inadéquate dans les systèmes d'IA.
Influence technique de la CNIL au-delà de la France
Les directives techniques de la CNIL sont régulièrement citées par d'autres APD de l'UE :
Guide pratique de l'anonymisation (2023) : Le guide pratique d'anonymisation de la CNIL couvre la k-anonymité, la l-diversité, la confidentialité différentielle et leur application pratique aux ensembles de données français. Plus de 12 APD de l'UE font référence à ce guide dans leurs propres directives d'application (y compris l'IMY Suède, qui a produit sa propre version basée en partie sur la méthodologie de la CNIL).
Directives sur les systèmes d'IA (2024) : Les directives de la CNIL sur la gouvernance de l'IA couvrent 6 catégories d'anonymisation obligatoires pour les données d'entraînement de l'IA — les directives les plus spécifiques d'une APD de l'UE sur ce sujet.
Exigences techniques sur les cookies : Les directives d'application de la CNIL sur les cookies (régulièrement mises à jour) exigent des mises en œuvre techniques spécifiques pour les plateformes de gestion du consentement — les directives d'APD les plus techniquement spécifiques sur la technologie de consentement dans l'UE.
Le NIR : L'identifiant le plus sensible de la France
Le Numéro d'Inscription au Répertoire (NIR) — également appelé numéro de sécurité sociale — est un numéro de sécurité sociale français à 15 chiffres au format :
S AAMMDDCCC OOO K
Où :
- S = 1 chiffre : sexe (1=homme, 2=femme)
- AA = 2 chiffres : année de naissance
- MM = 2 chiffres : mois de naissance
- DD = 2 chiffres : département de naissance (01-95, 2A/2B pour la Corse, 97-99 pour les territoires d'outre-mer, 99 pour la naissance à l'étranger)
- CCC = 3 chiffres : code de la commune dans le département
- OOO = 3 chiffres : numéro d'ordre de naissance
- K = 2 chiffres : clé de contrôle (97 - (NIR mod 97))
Le NIR encode le sexe, la date de naissance, le lieu de naissance et l'ordre de naissance — ce qui en fait l'un des identifiants nationaux les plus riches en informations de l'UE. La CNIL classe le NIR comme nécessitant une protection renforcée équivalente à celle des données de catégorie spéciale.
Défi de détection : Les outils NLP génériques manquent le NIR dans 78 % des documents selon l'analyse de la CNIL de 2024. Les échecs spécifiques :
- La structure à 15 chiffres du NIR (sans séparateurs dans de nombreux documents) est confondue avec d'autres séquences de chiffres longues
- L'encodage département/commune (chiffres 7-11) nécessite des connaissances géographiques pour valider — les outils qui n'implémentent pas le calcul de la clé mod-97 ne peuvent pas distinguer les numéros NIR valides des faux positifs
- Les départements corses (2A/2B — lettres, pas chiffres) perturbent les outils de correspondance de modèles qui s'attendent uniquement à des caractères numériques
SIREN/SIRET : Identifiants d'entreprise dans les documents français
Numéro SIREN : Numéro d'identification d'entreprise français à 9 chiffres avec chiffre de contrôle Luhn. Apparaît dans tous les documents commerciaux français.
Numéro SIRET : Extension à 14 chiffres du SIREN (9 chiffres SIREN + 5 chiffres de numéro d'établissement). Le SIRET identifie de manière unique un établissement commercial spécifique, tandis que le SIREN identifie l'entité de l'entreprise.
Les documents commerciaux contiennent fréquemment des numéros SIRET aux côtés des données personnelles des représentants de l'entreprise — les directives d'application de la CNIL considèrent la combinaison de SIRET + nom individuel comme créant des informations identifiables qui déclenchent des obligations en vertu du RGPD.
Exigences d'anonymisation de l'IA de la CNIL
Les directives de la CNIL pour l'IA de 2024 exigent 6 catégories spécifiques d'anonymisation pour les données d'entraînement de l'IA impliquant des données personnelles françaises :
- Suppression des identifiants : Les identifiants explicites (nom, NIR, SIREN) doivent être remplacés par des pseudonymes ou supprimés
- Généralisation des quasi-identifiants : Les attributs qui pourraient permettre une ré-identification en combinaison (âge, département, profession) doivent être généralisés pour réduire la spécificité
- Ajout de bruit : Les attributs numériques doivent avoir un bruit calibré ajouté pour prévenir l'inférence
- Vérification de la k-anonymité : Chaque individu dans l'ensemble de données doit être indistinguable d'au moins k-1 autres (la CNIL recommande k≥5)
- Vérification de la l-diversité : Les valeurs d'attributs sensibles doivent avoir une diversité adéquate au sein de chaque classe d'équivalence
- Évaluation du risque de ré-identification : Avant publication, les ensembles de données doivent subir une évaluation du risque de ré-identification en utilisant une méthodologie documentée
La CNIL a explicitement constaté que simplement supprimer le NIR et le nom complet d'un ensemble de données n'est pas une anonymisation suffisante. D'autres quasi-identifiants (âge, code postal, profession, spécialité médicale) doivent également être pris en compte.
Contexte bilingue français/langue régionale
La France a une situation linguistique complexe pertinente pour la détection des PII :
Français métropolitain : Français standard tel que parlé en France — langue principale de tous les documents officiels.
Identifiants DOM-TOM : Les territoires d'outre-mer (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) ont leurs propres codes administratifs dans les numéros NIR (préfixe 97, 98 pour les départements d'outre-mer) et conventions de nom local.
Contexte alsacien : La région Alsace-Moselle a des conventions administratives allemandes historiques — des noms d'origine allemande et certains formats de documents administratifs allemands apparaissent dans les dossiers administratifs français.
Français belge : Pour les organisations opérant à travers la France et la Belgique, les formats d'identifiants français et belges diffèrent (NIR contre numéro de registre national belge), et le français belge utilise des conventions de nom légèrement différentes.
Pour la conformité française : détection du NIR avec validation de la clé mod-97, détection SIREN/SIRET avec validation Luhn, NER en langue française avec prise en charge des caractères accentués (é, è, ê, ë, à, â, î, ô, û, ç, œ), et anonymisation documentée répondant au cadre en 6 catégories de la CNIL pour les données d'entraînement de l'IA.
Sources :