Position de la CNIL en tant que DPA la plus exigeante sur le plan technique de l'UE
La Commission Nationale de l'Informatique et des Libertés (CNIL) de France publie les directives les plus détaillées et techniquement spécifiques de l'UE sur la protection des données. Alors que la plupart des DPA de l'UE émettent des directives générales, la CNIL publie des "recommandations" — des spécifications techniques détaillées qui constituent l'interprétation par la CNIL de ce que nécessite la conformité au RGPD.
Cette rigueur technique a établi la CNIL comme la référence de l'UE en matière d'ingénierie de la vie privée. D'autres DPA de l'UE font souvent référence aux publications techniques de la CNIL, en particulier son "Guide pratique de l'anonymisation" de 2023 et ses directives sur l'IA générative de 2024.
La CNIL a traité 16 433 plaintes en 2023 — une augmentation de 43 % par rapport à 2022 — et a infligé environ 150 millions d'euros d'amendes au titre du RGPD depuis 2018. L'accélération du volume des plaintes reflète à la fois une sensibilisation accrue du public et les campagnes de sensibilisation de la CNIL encourageant les personnes concernées à exercer leurs droits.
Exigences de la CNIL en matière d'anonymisation des données d'entraînement de l'IA
Les directives sur l'IA générative de la CNIL de 2024 ("Systèmes d'IA générative") établissent des exigences contraignantes pour les organisations formant des modèles d'IA sur des données personnelles françaises ou déployant des systèmes d'IA qui traitent les données d'utilisateurs français.
Les directives identifient six catégories d'anonymisation obligatoires pour les données d'entraînement de l'IA :
- Identifiants directs (direct identifiers) : Noms, adresses, numéros d'identification — doivent être supprimés ou remplacés avant l'entraînement de l'IA
- Identifiants quasi-directs (quasi-identifiers) : Combinaisons d'attributs permettant la ré-identification — doivent être évaluées pour la k-anonymité
- Données sensibles (special categories) : Données de santé, biométriques, politiques, religieuses — doivent être séparées avec des mesures d'anonymisation supplémentaires
- Données comportementales (behavioral data) : Historique de navigation, modèles d'interaction — doivent être agrégées ou pseudonymisées
- Données inférées (inferred data) : Caractéristiques inférées par l'IA à partir de données comportementales — soumises à des contrôles de limitation de finalité
- Données relatives aux mineurs (children's data) : Toute donnée potentiellement relative à des personnes de moins de 15 ans — vérification d'âge obligatoire et anonymisation renforcée
Pour les organisations utilisant des LLM formés sur des données extraites du web (une approche courante), les directives de la CNIL exigent une documentation prouvant que les données d'entraînement ont été évaluées par rapport à ces six catégories et que l'anonymisation appropriée a été appliquée.
Exigences du "Guide Pratique de l'Anonymisation"
Le guide d'anonymisation de la CNIL de 2023 est la directive officielle la plus détaillée de l'UE sur ce qui constitue techniquement l'anonymisation. Exigences clés :
Techniques d'anonymisation approuvées par la CNIL :
- k-anonymité : garantir que chaque enregistrement est indistinguable d'au moins k-1 autres enregistrements
- l-diversité : nécessitant la diversité dans les attributs sensibles au sein des classes d'équivalence
- Confidentialité différentielle : ajout de bruit calibré aux résultats statistiques
- Pseudonymisation (notée explicitement comme n'étant pas une anonymisation mais une mesure de réduction des risques)
Exigences documentaires : Le guide de la CNIL exige que les organisations maintiennent une "fiche d'anonymisation" pour chaque activité de traitement utilisant l'anonymisation, documentant : la technique d'anonymisation appliquée, les paramètres utilisés (valeur k pour la k-anonymité, valeur epsilon pour la confidentialité différentielle), l'évaluation du risque de ré-identification résiduel et la méthodologie de validation.
Évaluation du risque de ré-identification : La CNIL exige que les organisations effectuent une évaluation du risque de ré-identification avant de revendiquer que les données sont anonymisées. L'évaluation doit prendre en compte : le test de "l'intrus motivé" (un individu motivé pourrait-il ré-identifier les données ?), les ensembles de données auxiliaires disponibles et le contexte spécifique des données.
Considérations de la CNIL sur la Détection de PII en Langue Française
Pour les organisations traitant des données en français, les directives de la CNIL exigent implicitement que les outils de détection de PII couvrent les PII en langue française. Types d'entités spécifiques à la langue française qui doivent être détectés :
- Numéro de Sécurité Sociale (NIR) : Numéro de Sécurité Sociale français à 13 chiffres avec validation de format spécifique
- Numéro de carte vitale : Identifiant de carte d'assurance maladie utilisé dans l'administration de la santé en France
- Numéro d'identification au répertoire (NIR) : Identifiant du registre de la population
- SIRET/SIREN : Identifiants d'entreprise pouvant apparaître dans des contextes d'affaires personnels
- Numéro d'ordre professionnel : Numéros d'enregistrement professionnel (médecins, avocats, comptables)
- Carte nationale d'identité (CNI) : Numéro de carte d'identité nationale française
Les modèles NER français pour la détection de noms de personnes doivent également gérer les conventions de nommage françaises : noms composés (Jean-Pierre), noms hyphénés, particules (de, du, des) et modèles de noms spécifiques à la France.
Application de la CNIL : Le Modèle d'Amende pour l'IA
Les actions d'application de la CNIL contre les systèmes d'IA établissent le précédent de ce que signifie "mesures techniques adéquates" dans le contexte de l'IA :
Clearview AI (amende de 20 millions d'euros, 2022) : Traitement de données biométriques de personnes françaises sans base légale, collectées à partir de sources web publiques. Établi que le scraping massif de données personnelles pour l'entraînement de l'IA nécessite une base légale explicite.
Enquête sur TikTok (2024-2025 en cours) : Axée sur les systèmes de recommandation algorithmiques qui peuvent inférer des catégories sensibles à partir de données comportementales. La méthodologie d'enquête de la CNIL est devenue la norme de l'UE pour les audits de systèmes d'IA.
Examen de l'IA générative (2024-2025) : La CNIL a réalisé des examens systématiques des fournisseurs de LLM opérant en France, en se concentrant sur la provenance des données d'entraînement et l'anonymisation. Les fournisseurs sans procédures d'anonymisation documentées pour les données des utilisateurs français ont été tenus de mettre en œuvre des contrôles.
Le modèle : l'application de la CNIL se concentre sur l'insuffisance technique — l'absence de contrôles techniques documentés — plutôt que sur des violations purement procédurales.
Mise en œuvre de la Documentation d'Anonymisation Conforme à la CNIL
Pour les organisations françaises ou celles servant des utilisateurs français, une posture d'anonymisation conforme à la CNIL nécessite :
1. Fiche d'anonymisation pour chaque activité de traitement :
- Objectif de traitement et catégories de données
- Technique d'anonymisation appliquée (avec paramètres)
- Résultat de l'évaluation du risque de ré-identification
- Méthode de validation (tests, revue externe)
- Personne responsable et date de révision
2. Prétraitement pour les systèmes d'IA :
- Documenter l'outil de détection de PII et la configuration utilisée
- Enregistrer les types d'entités détectés et supprimés/pseudonymisés
- Maintenir des journaux de traitement pour les demandes d'audit de la CNIL
3. Couverture des PII en langue française :
- Vérifier la couverture de détection pour les identifiants spécifiques à la France (NIR, carte vitale, CNI)
- Valider la performance du modèle NER français sur les noms personnels français
- Documenter les lacunes de couverture et les contrôles compensatoires
4. Provenance des données d'entraînement :
- Pour les systèmes d'IA formés sur des données extraites du web : documenter l'évaluation de l'anonymisation de l'ensemble de données source
- Pour les systèmes d'IA formés sur des données utilisateur : documenter le processus d'anonymisation des données utilisateur
Les demandes d'inspection de la CNIL pour les systèmes d'IA incluent régulièrement des demandes pour ces documents. Les organisations disposant d'une documentation préexistante satisfont aux exigences d'inspection beaucoup plus rapidement que celles qui effectuent des évaluations de manière réactive.
Sources :