By · Last updated 2026-06-03

Retour au blogTechnique

Confidentialité Reproductible : Pourquoi les Équipes...

L'anonymisation des données d'entraînement ML doit être cohérente et reproductible.

June 3, 20266 min de lecture
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Confidentialité reproductible : pourquoi les équipes ML ont besoin de presets de configuration

Le DPO a approuvé la procédure d'anonymisation. Elle couvre quatre points : noms, e-mails, numéros de téléphone et dates de naissance. La méthode est le Remplacement. Le document fait quatre pages et se trouve dans le wiki conformité.

Douze data scientists le lisent au lancement. Chacun configure l'outil de son côté. Certains ajoutent des identifiants nationaux. D'autres ajoutent des adresses IP. D'autres encore passent à la Suppression. Trois mois plus tard, les ensembles ne sont pas cohérents.

La CNIL a contrôlé plusieurs entreprises d'IA en 2024. Le problème : l'utilisation inappropriée de données personnelles dans les ensembles de modèles. Les enquêteurs n'ont pas seulement demandé si l'anonymisation avait eu lieu. Ils ont demandé avec quelle cohérence elle avait été appliquée.

La documentation est nécessaire. Elle ne suffit pas. La solution technique est le preset.

Pourquoi les ensembles ML ont besoin d'une configuration propre

Construire des ensembles de modèles a des exigences particulières. L'anonymisation de documents en général ne les partage pas.

Remplacer, pas Supprimer. Les modèles entraînés sur des textes où les noms deviennent [SUPPRIMÉ] apprennent ce token comme marqueur de position de nom. Cela nuit au modèle. Le Remplacement échange « Jean Dupont » contre « Pierre Martin ». Le modèle voit de vrais schémas de noms. Il ne voit pas un token masque.

Même processus pour tous les enregistrements. Un ensemble où 70 % des noms sont remplacés et 30 % sont supprimés envoie un signal mixte. Chaque enregistrement doit passer par les mêmes étapes.

Même liste d'entités. Si l'ensemble contient des données de santé, retirer les noms mais laisser les dates de naissance dans certains enregistrements crée des lacunes. Les douze data scientists doivent retirer les mêmes types d'entités.

Pas de sur-suppression. Retirer des dates qui sont des horodatages — pas des dates de naissance — réduit la qualité sans gain de conformité. Le preset approuvé définit exactement ce qui doit être retiré.

Résultats reproductibles. Si un ensemble doit être retraité — après la découverte d'un type d'entité manqué — le preset donne le même résultat à chaque fois. Les configurations ad hoc ne le font pas.

Le problème des douze data scientists

Une équipe ML fintech européenne utilise des ensembles issus de logs clients. Le DPO a approuvé l'objectif — détection de fraude — avec une règle : tous les noms, e-mails, numéros de téléphone et identifiants de paiement des clients doivent être remplacés avant tout travail sur le modèle.

Sans presets :

  • Personne 1 retire noms, e-mails et téléphones — mais oublie les identifiants de paiement
  • Personne 2 inclut les identifiants de paiement mais utilise Supprimer, pas Remplacer
  • Personne 3 suit exactement le document de procédure
  • Personnes 4–12 varient

L'ensemble fusionné est en partie non conforme et en partie trop traité. Un DPO ne peut pas le certifier.

Avec un preset approuvé par le DPO :

  • Le DPO crée « ML Dev — Détection de fraude » avec les types d'entités exacts et la méthode Remplacer
  • Le preset est transmis aux douze personnes avec une règle : l'utiliser pour tous les travaux sur les ensembles
  • Personne ne peut modifier le preset sans accord du DPO

Chaque personne produit le même résultat. L'ensemble fusionné est cohérent. L'audit IA annuel passe sans observation. L'année précédente comptait trois observations liées à des travaux incohérents sur les ensembles.

RGPD et loi IA

Mis à jour pour 2026

La loi IA de l'UE est entrée pleinement en vigueur en août 2024. Elle ajoute des règles pour les systèmes IA qui utilisent des données personnelles pour le travail sur les modèles. Les systèmes IA à haut risque doivent documenter leurs ensembles, y compris les mesures d'anonymisation appliquées.

L'article 5(1)(b) du RGPD — la règle de limitation des finalités — bloque l'utilisation de données personnelles sans base légale claire. Les actions d'application de la CNIL en 2024 se sont concentrées sur cette lacune : des données collectées pour un service utilisées pour le travail sur des modèles sans base valide ni anonymisation.

Les presets aident à satisfaire les deux ensembles de règles :

  • Nom et configuration du preset : la méthode documentée
  • Journaux de traitement : preuve que la méthode a été appliquée
  • Approbation du DPO : accord enregistré sur la configuration

Cela crée la piste d'audit que les deux lois exigent. Pour les obligations de l'article 10 en détail, voir le guide sur les données d'entraînement de la loi IA UE.

Configuration des presets pour les ensembles NLP

Types inclus dans la plupart des ensembles NLP :

  • PERSON — Remplacer par des noms similaires
  • EMAIL_ADDRESS — Remplacer par des adresses synthétiques
  • PHONE_NUMBER — Remplacer par des numéros synthétiques
  • CREDIT_CARD / IBAN — Remplacer ou Supprimer
  • LOCATION — Remplacer par des lieux similaires si la géographie importe ; Supprimer sinon
  • DATE_OF_BIRTH — Supprimer ; la généralisation par âge est souvent nécessaire

Types souvent exclus :

  • Dates générales — les horodatages aident les modèles temporels
  • Noms d'organisations — aident les modèles de reconnaissance d'entités nommées
  • URLs — aident les modèles de liens et de références

Le responsable ML et le DPO définissent ces règles dans le preset approuvé. Les membres de l'équipe l'appliquent. Ils ne font pas de choix de configuration.

Les presets comme mémoire institutionnelle

Avant les presets. La bonne configuration d'entités vivait dans les têtes de trois data scientists. Ils avaient travaillé sur la revue de conformité. Deux ont quitté en T3. La connaissance est partie avec eux.

Après les presets. La configuration vit dans « ML Dev — Données clients v2.1 ». Le journal de version montre quand il a été créé, qui l'a approuvé et ce qui a changé depuis v2.0. Les nouveaux membres de l'équipe utilisent le preset et héritent de toutes les connaissances intégrées.

La version 2.1 a ajouté la détection IBAN après qu'une revue a trouvé qu'elle manquait. La version 2.0 a été approuvée en février 2025. Le journal est complet.

Pour le fonctionnement des journaux de traitement et des flux de revue DPO, voir le guide d'anonymisation ML RGPD.

Presets et le modèle d'application de la CNIL

Les cas IA de la CNIL en 2024 établissent un schéma clair. Ils demandent non seulement ce qui a été retiré, mais comment c'était gouverné. Un preset partagé avec un enregistrement d'approbation du DPO et des journaux de traitement répond directement à cette question.

Une configuration ad hoc ne le fait pas. La même lacune existe dans d'autres juridictions d'autorités de protection des données de l'UE qui suivent la logique de la CNIL. Pour en savoir plus sur l'approche IA de la CNIL, voir le guide de conformité IA RGPD de la CNIL.

Conclusion

Les documents disent aux membres de l'équipe ce qu'il faut faire. Les presets rendent facile — et applicable — de le faire de la même manière à chaque fois.

Pour les ensembles ML, la cohérence est à la fois une exigence légale et technique. Le preset satisfait les deux en même temps.

Les autorités de protection des données qui examinent les pratiques IA recherchent des preuves d'une anonymisation uniforme. Un preset appliqué de la même façon pour tous les travaux sur les ensembles est la preuve la plus claire que vous pouvez fournir.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.