CNIL France : Conformité technique au RGPD
Le régulateur de données le plus strict de France
L'autorité française de protection des données est la CNIL. Elle fixe les règles de confidentialité les plus précises de l'UE. La plupart des régulateurs européens publient des orientations générales. La CNIL va plus loin. Elle publie des recommandations — des spécifications techniques précises qui définissent ce que signifie vraiment la conformité au RGPD.
D'autres régulateurs de l'UE s'appuient souvent sur les travaux de la CNIL. Les textes de référence sont le Guide pratique de l'anonymisation de 2023 et les recommandations sur l'IA générative de 2024.
Les chiffres parlent d'eux-mêmes. La CNIL a traité 16 433 plaintes en 2023, soit 43 % de plus qu'en 2022. Depuis le début de l'application du RGPD, elle a infligé environ 150 millions d'euros d'amendes.
Formation IA : six types d'enregistrements à anonymiser
Les recommandations IA de la CNIL de 2024 ont un large champ d'application. Elles couvrent toute organisation qui entraîne des modèles d'IA sur des données personnelles françaises. Elles s'appliquent aussi aux entreprises qui servent des utilisateurs français avec des outils d'IA.
La CNIL identifie six catégories de données à anonymiser avant tout entraînement :
- Identifiants directs : noms, adresses, numéros d'identification. À supprimer ou remplacer avant l'entraînement.
- Identifiants quasi-directs : combinaisons d'attributs permettant la réidentification. Appliquer des vérifications k-anonymat.
- Données sensibles : données de santé, biométriques, politiques et religieuses. Isoler avec des mesures renforcées.
- Données comportementales : historique de navigation et habitudes d'utilisation. Agréger ou pseudonymiser.
- Données inférées : signaux dérivés par l'IA à partir des comportements. Appliquer des limites de finalité.
- Données relatives aux mineurs : toute donnée pouvant concerner des personnes de moins de 15 ans. Vérification de l'âge et anonymisation renforcée obligatoires.
Vous utilisez des LLM entraînés sur du contenu récupéré par scraping ? Vous devez fournir une preuve écrite. Montrez que vos données d'entraînement ont été vérifiées et anonymisées. Consultez notre guide de conformité RGPD pour plus de détails.
Le guide d'anonymisation : règles essentielles
Le guide 2023 est le texte officiel le plus détaillé de l'UE sur ce sujet. Il définit ce que signifie une anonymisation réelle.
Techniques approuvées :
- k-anonymat — chaque enregistrement est indiscernable d'au moins k-1 autres
- l-diversité — les attributs sensibles varient au sein de chaque groupe
- Confidentialité différentielle — du bruit est ajouté aux sorties statistiques
- Pseudonymisation — une mesure de réduction des risques, pas une anonymisation complète
Documentation requise :
Pour chaque traitement utilisant l'anonymisation, la CNIL attend une fiche d'anonymisation. Elle doit comprendre :
- La technique utilisée et ses paramètres clés (valeur k, valeur epsilon)
- Le résultat d'une analyse du risque de réidentification
- La méthode de validation (tests ou audit externe)
- Le responsable et la date de révision
Analyse du risque de réidentification :
Avant de déclarer des données anonymisées, effectuez une vérification formelle. Demandez-vous : une personne motivée pourrait-elle réidentifier ces données ? Examinez les jeux de données auxiliaires disponibles. Prenez en compte le contexte complet.
PII en français : ce que vos outils doivent détecter
Les règles françaises exigent une couverture des données personnelles en langue française. Vos outils doivent détecter les identifiants spécifiques français.
Identifiants clés à couvrir :
- NIR : 15 chiffres (13 de base + clé à 2 chiffres). C'est le numéro de sécurité sociale français.
- Numéro de carte vitale : identifiant de la carte d'assurance maladie.
- SIRET/SIREN : identifiants d'entreprise présents dans les dossiers personnels.
- Numéro d'ordre professionnel : numéros d'inscription pour médecins, avocats et comptables.
- CNI (Carte nationale d'identité) : numéro de la carte d'identité française.
Les modèles NER français doivent gérer les particularités des noms français : noms composés (Jean-Pierre), particules (de, du, des) et noms à trait d'union. Consultez notre guide de détection PII multilingue pour couvrir toutes les langues.
Contrôle : ce qui conduit aux amendes
Les amendes de la CNIL suivent un schéma clair. Elles ciblent l'absence de contrôles techniques. Un manquement procédural seul est rarement la cause principale.
Clearview AI — 20 M€ d'amende (2022) : La société a traité des données biométriques de personnes françaises sans base légale, collectées sur des sources publiques. Le cas a confirmé que le scraping massif pour l'entraînement IA nécessite une base légale explicite.
TikTok — enquête lancée en 2024 : Portant sur des systèmes susceptibles d'inférer des catégories sensibles à partir de signaux comportementaux. Cette méthode est désormais la référence européenne pour les audits IA.
Revue des IA génératives (2024–2025) : La CNIL a examiné les fournisseurs de LLM actifs en France. Elle s'est concentrée sur la provenance des contenus d'entraînement. Les fournisseurs sans documentation adéquate ont dû renforcer leurs contrôles.
Quatre étapes pour se conformer
Vous traitez des données personnelles françaises ? Quatre éléments sont indispensables.
1. Une fiche d'anonymisation pour chaque traitement
Chaque traitement utilisant l'anonymisation doit disposer de sa propre fiche. Notez la technique, ses paramètres, un résultat d'analyse du risque et une date de révision.
2. Journaux de prétraitement pour l'IA
Consignez l'outil de détection PII utilisé. Notez les types d'entités détectés. Enregistrez ce qui a été supprimé ou masqué. Conservez ces journaux pour les audits.
3. Couverture des données personnelles en français
Vérifiez que votre outil détecte les numéros NIR, carte vitale et CNI. Testez votre modèle NER français sur de vrais noms français. Documentez les lacunes et les mesures compensatoires.
4. Traçabilité des contenus d'entraînement
Pour les contenus scrapés : documentez la vérification d'anonymisation de la source. Pour les données utilisateurs : documentez le processus d'anonymisation. Notre présentation de la conformité sécurité montre comment cela s'intègre dans un dispositif de protection plus large.
Les organisations avec une bonne documentation passent les audits bien plus vite. Construisez votre dossier dès maintenant. N'attendez pas une inspection pour commencer.