By · Last updated 2026-06-04

Tornar al BlogTècnic

Privacitat Reproductible: Presets per a ML

L'anonimització de les dades d'entrenament ML ha de ser consistent i reproductible. Si els científics de dades A i B apliquen tipus d'entitats diferents, els conjunts de dades d'entrenament són incompatibles.

June 4, 20266 min llegit
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Privacitat Reproductible: Per Què els Equips de ML Necessiten Presets, No Només Documentació

El DPO ha aprovat el pla d'anonimització. Cobreix quatre elements: noms, correus electrònics, números de telèfon i dates de naixement. El mètode és Replace. El pla té quatre pàgines i viu a la wiki de compliment.

Dotze científics de dades el llegeixen en el kickoff. Cadascun configura l'eina pel seu compte. Alguns afegeixen identificadors nacionals. Alguns afegeixen adreces IP. Alguns canvien a Redact. Tres mesos després, els conjunts no són consistents.

La CNIL va inspeccionar diverses empreses d'IA el 2024. El problema: ús inadequat d'informació personal en conjunts de dades de models. No van preguntar només si s'havia aplicat l'anonimització. Van preguntar amb quina consistència s'havia aplicat.

La documentació és necessari. No és suficient. La solució és el preset.

Per Què els Conjunts de Dades de Modelsde ML Necessiten la Seva Pròpia Configuració

La construcció de conjunts de dades per a models té necessitats úniques. L'anonimització general de documents no les comparteix.

Replace, no Redact. Els models entrenats en text on els noms es converteixen en [REDACTED] aprenen aquest token com a marcador de posició de nom. Això perjudica el model. Replace canvia "John Smith" per "David Chen". El model veu patrons de noms reals. No veu un token de màscara.

El mateix procés per a tots els registres. Un conjunt de dades on el 70% dels noms són reemplaçats i el 30% són [REDACTED] emet senyals mixtes. Cada registre ha de passar pels mateixos passos.

La mateixa llista d'entitats. Si el conjunt de dades conté informació de salut, eliminar noms però deixar dates de naixement en alguns registres crea buits. Els dotze científics de dades han d'eliminar els mateixos tipus.

Sense sobreeliminar. Eliminar dates que són marques de temps -- no dates de naixement -- redueix la qualitat del conjunt de dades sense cap guany de compliment. El preset aprovat especifica exactament quins elements eliminar.

Sortida reproductible. Si cal tornar a executar un conjunt de dades -- per exemple, després de trobar un tipus d'entitat que havia passat per alt -- el preset dóna el mateix resultat cada vegada. Les configuracions ad hoc no.

El Problema dels Dotze Científics de Dades

Un equip europeu de ML fintech utilitza conjunts de dades de registres de clients. El DPO ha aprovat el propòsit -- detecció de frau -- amb una norma: tots els noms, correus electrònics, números de telèfon i identificadors de pagament dels clients han de ser reemplaçats abans que comencem el treball amb models.

Sense presets:

  • Persona 1 elimina noms, correus electrònics i números de telèfon, però oblida els identificadors de pagament
  • Persona 2 inclou els identificadors de pagament però utilitza Redact en lloc de Replace
  • Persona 3 segueix el document del pla exactament
  • Persones 4-12 varien

El conjunt de dades fusionat és parcialment no conforme i parcialment sobreprocessat. Un DPO no pot certificar-lo.

Amb un preset aprovat pel DPO:

  • El DPO crea "Desenvolupament ML -- Detecció de Frau" amb tipus d'entitats exactes i el mètode Replace
  • El preset va a les dotze persones amb una sola norma: utilitza'l per a tot el treball amb conjunts de dades
  • Ningú pot canviar el preset sense l'aprovació del DPO

Cada persona ara produeix el mateix resultat. El conjunt de dades fusionat és consistent. L'auditoria anual d'IA s'aprova amb zero constatacions. L'any anterior hi havia tres constatacions de treball inconsistent amb conjunts de dades.

RGPD i la Llei d'IA

Actualitzat per al 2026

La Llei d'IA de la UE va entrar en vigor completament a l'agost del 2024. Afegeix normes per als sistemes d'IA que utilitzen informació personal per al treball amb models. Els sistemes d'IA d'alt risc han de documentar els seus conjunts de dades, incloent-hi quina anonimització s'ha aplicat.

L'article 5(1)(b) del RGPD -- la norma de limitació de finalitat -- bloqueja l'ús d'informació personal sense una base legal clara. Els casos de la CNIL del 2024 es van centrar en aquest buit: informació recollida per a un servei utilitzada per al treball amb models sense base vàlida ni anonimització.

Els presets ajuden a complir tots dos conjunts de normes:

  • Nom i configuració del preset: el mètode documentat
  • Registres de processament: prova que el mètode s'ha aplicat
  • Aprovació del DPO: una aprovació registrada de la configuració

Això crea la pista d'auditoria que ambdues lleis requereixen. Per als detalls de les obligacions de l'article 10, consulteu la guia de dades d'entrenament de la Llei d'IA de la UE.

Configuració del Preset per a Conjunts de Dades NLP

Tipus a incloure en la majoria de conjunts de dades NLP:

  • PERSON -- Replace amb noms similars
  • EMAIL_ADDRESS -- Replace amb adreces sintètiques
  • PHONE_NUMBER -- Replace amb números sintètics
  • CREDIT_CARD / IBAN -- Replace o Redact
  • LOCATION -- Replace amb llocs similars si la localització importa; Redact si no
  • DATE_OF_BIRTH -- Redact; sovint cal l'agrupació per edats

Tipus sovint exclosos:

  • Dates generals -- les marques de temps ajuden els models temporals
  • Noms d'organització -- ajuden els models de reconeixement d'entitats nomenades
  • URLs -- ajuden els models d'enllaços i referències

El responsable de ML i el DPO estableixen aquestes normes en el preset aprovat. Els membres de l'equip l'apliquen. No prenen decisions de configuració.

Els Presets com a Memòria Institucional

Abans dels presets. La configuració correcta d'entitats vivia en els caps de tres científics de dades que havien treballat durant la revisió de compliment. Dos van marxar al T3. El coneixement va marxar amb ells.

Després dels presets. La configuració viu en "Desenvolupament ML -- Registres de Clients v2.1". El registre de versions mostra quan es va crear, qui l'ha aprovat i què va canviar de la v2.0. Les noves incorporacions utilitzen el preset i obtenen tot el coneixement integrat.

La versió 2.1 va afegir la detecció d'IBAN després que una revisió la troés absent. La versió 2.0 va ser aprovada el febrer del 2025. El registre és complet.

Per saber com funcionen els registres de processament i els fluxos de revisió del DPO, consulteu la guia d'anonimització de dades d'entrenament ML per al RGPD.

Presets vs. el Patró de la CNIL

Els casos d'IA de la CNIL del 2024 estableixen un patró clar. Pregunten no només què s'ha eliminat sinó com s'ha governat. Un preset compartit amb un registre d'aprovació del DPO i registres de processament respon a això directament.

Una configuració ad hoc no. El mateix buit existeix en altres casos d'APD de la UE que segueixen la lògica de la CNIL. Per saber més sobre l'enfocament d'IA de la CNIL, consulteu la guia de compliment d'IA RGPD de la CNIL.

Conclusió

La documentació explica als membres de l'equip què han de fer. Els presets ho fan fàcil -- i exigible -- de fer de la mateixa manera cada vegada.

Per als conjunts de dades de models ML, la consistència és tant una necessitat legal com tècnica. El preset satisfà tots dos alhora.

Les APD que examinen les pràctiques d'IA volen proves d'anonimització uniforme. Un preset aplicat de la mateixa manera en tot el treball amb conjunts de dades és la prova més clara que pots oferir.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.