Confidentialité reproductible : pourquoi les équipes ML ont besoin de presets de configuration

Le DPO a approuvé la procédure d'anonymisation. Elle couvre quatre points : noms, e-mails, numéros de téléphone et dates de naissance. La méthode est le Remplacement. Le document fait quatre pages et se trouve dans le wiki conformité.

Douze data scientists le lisent au lancement. Chacun configure l'outil de son côté. Certains ajoutent des identifiants nationaux. D'autres ajoutent des adresses IP. D'autres encore passent à la Suppression. Trois mois plus tard, les ensembles ne sont pas cohérents.

La CNIL a contrôlé plusieurs entreprises d'IA en 2024. Le problème : l'utilisation inappropriée de données personnelles dans les ensembles de modèles. Les enquêteurs n'ont pas seulement demandé si l'anonymisation avait eu lieu. Ils ont demandé avec quelle cohérence elle avait été appliquée.

La documentation est nécessaire. Elle ne suffit pas. La solution technique est le preset.

Pourquoi les ensembles ML ont besoin d'une configuration propre

Construire des ensembles de modèles a des exigences particulières. L'anonymisation de documents en général ne les partage pas.

Remplacer, pas Supprimer. Les modèles entraînés sur des textes où les noms deviennent [SUPPRIMÉ] apprennent ce token comme marqueur de position de nom. Cela nuit au modèle. Le Remplacement échange « Jean Dupont » contre « Pierre Martin ». Le modèle voit de vrais schémas de noms. Il ne voit pas un token masque.

Même processus pour tous les enregistrements. Un ensemble où 70 % des noms sont remplacés et 30 % sont supprimés envoie un signal mixte. Chaque enregistrement doit passer par les mêmes étapes.

Même liste d'entités. Si l'ensemble contient des données de santé, retirer les noms mais laisser les dates de naissance dans certains enregistrements crée des lacunes. Les douze data scientists doivent retirer les mêmes types d'entités.

Pas de sur-suppression. Retirer des dates qui sont des horodatages — pas des dates de naissance — réduit la qualité sans gain de conformité. Le preset approuvé définit exactement ce qui doit être retiré.

Résultats reproductibles. Si un ensemble doit être retraité — après la découverte d'un type d'entité manqué — le preset donne le même résultat à chaque fois. Les configurations ad hoc ne le font pas.

Le problème des douze data scientists

Une équipe ML fintech européenne utilise des ensembles issus de logs clients. Le DPO a approuvé l'objectif — détection de fraude — avec une règle : tous les noms, e-mails, numéros de téléphone et identifiants de paiement des clients doivent être remplacés avant tout travail sur le modèle.

Sans presets :

Personne 1 retire noms, e-mails et téléphones — mais oublie les identifiants de paiement
Personne 2 inclut les identifiants de paiement mais utilise Supprimer, pas Remplacer
Personne 3 suit exactement le document de procédure
Personnes 4–12 varient

L'ensemble fusionné est en partie non conforme et en partie trop traité. Un DPO ne peut pas le certifier.

Avec un preset approuvé par le DPO :

Le DPO crée « ML Dev — Détection de fraude » avec les types d'entités exacts et la méthode Remplacer
Le preset est transmis aux douze personnes avec une règle : l'utiliser pour tous les travaux sur les ensembles
Personne ne peut modifier le preset sans accord du DPO

Chaque personne produit le même résultat. L'ensemble fusionné est cohérent. L'audit IA annuel passe sans observation. L'année précédente comptait trois observations liées à des travaux incohérents sur les ensembles.

RGPD et loi IA

Mis à jour pour 2026

La loi IA de l'UE est entrée pleinement en vigueur en août 2024. Elle ajoute des règles pour les systèmes IA qui utilisent des données personnelles pour le travail sur les modèles. Les systèmes IA à haut risque doivent documenter leurs ensembles, y compris les mesures d'anonymisation appliquées.

L'article 5(1)(b) du RGPD — la règle de limitation des finalités — bloque l'utilisation de données personnelles sans base légale claire. Les actions d'application de la CNIL en 2024 se sont concentrées sur cette lacune : des données collectées pour un service utilisées pour le travail sur des modèles sans base valide ni anonymisation.

Les presets aident à satisfaire les deux ensembles de règles :

Nom et configuration du preset : la méthode documentée
Journaux de traitement : preuve que la méthode a été appliquée
Approbation du DPO : accord enregistré sur la configuration

Cela crée la piste d'audit que les deux lois exigent. Pour les obligations de l'article 10 en détail, voir le guide sur les données d'entraînement de la loi IA UE.

Configuration des presets pour les ensembles NLP

Types inclus dans la plupart des ensembles NLP :

PERSON — Remplacer par des noms similaires
EMAIL_ADDRESS — Remplacer par des adresses synthétiques
PHONE_NUMBER — Remplacer par des numéros synthétiques
CREDIT_CARD / IBAN — Remplacer ou Supprimer
LOCATION — Remplacer par des lieux similaires si la géographie importe ; Supprimer sinon
DATE_OF_BIRTH — Supprimer ; la généralisation par âge est souvent nécessaire

Types souvent exclus :

Dates générales — les horodatages aident les modèles temporels
Noms d'organisations — aident les modèles de reconnaissance d'entités nommées
URLs — aident les modèles de liens et de références

Le responsable ML et le DPO définissent ces règles dans le preset approuvé. Les membres de l'équipe l'appliquent. Ils ne font pas de choix de configuration.

Les presets comme mémoire institutionnelle

Avant les presets. La bonne configuration d'entités vivait dans les têtes de trois data scientists. Ils avaient travaillé sur la revue de conformité. Deux ont quitté en T3. La connaissance est partie avec eux.

Après les presets. La configuration vit dans « ML Dev — Données clients v2.1 ». Le journal de version montre quand il a été créé, qui l'a approuvé et ce qui a changé depuis v2.0. Les nouveaux membres de l'équipe utilisent le preset et héritent de toutes les connaissances intégrées.

La version 2.1 a ajouté la détection IBAN après qu'une revue a trouvé qu'elle manquait. La version 2.0 a été approuvée en février 2025. Le journal est complet.

Pour le fonctionnement des journaux de traitement et des flux de revue DPO, voir le guide d'anonymisation ML RGPD.

Presets et le modèle d'application de la CNIL

Les cas IA de la CNIL en 2024 établissent un schéma clair. Ils demandent non seulement ce qui a été retiré, mais comment c'était gouverné. Un preset partagé avec un enregistrement d'approbation du DPO et des journaux de traitement répond directement à cette question.

Une configuration ad hoc ne le fait pas. La même lacune existe dans d'autres juridictions d'autorités de protection des données de l'UE qui suivent la logique de la CNIL. Pour en savoir plus sur l'approche IA de la CNIL, voir le guide de conformité IA RGPD de la CNIL.

Conclusion

Les documents disent aux membres de l'équipe ce qu'il faut faire. Les presets rendent facile — et applicable — de le faire de la même manière à chaque fois.

Pour les ensembles ML, la cohérence est à la fois une exigence légale et technique. Le preset satisfait les deux en même temps.

Les autorités de protection des données qui examinent les pratiques IA recherchent des preuves d'une anonymisation uniforme. Un preset appliqué de la même façon pour tous les travaux sur les ensembles est la preuve la plus claire que vous pouvez fournir.

Sources

Articles connexes

Technique

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

Commencer l'essai gratuit Voir les fonctionnalités

Confidentialité Reproductible : Pourquoi les Équipes...