By · Last updated 2026-05-27

Tornar al BlogTècnic

Anonimitzacio de dades ML conforme al GDPR

El GDPR restringeix l'us de dades personals per a l'entrenament de ML mes enlla del proposit original de recollida. Els cientifics de dades que depenen de scripts Python ad hoc creen llacunes de compliment que un DPO no pot certificar.

May 27, 20267 min llegit
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Un sol script no es suficient

Tots els equips de ciencia de dades han escrit alguna cosa com aixo:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Aixo substitueix les adreces de correu electronic. Nomes aixo. El conjunt de dades encara conte noms, numeros de telefon i identificadors medics. Seguira fallant una auditoria GDPR.

La diferencia entre "he anonimitzat els correus" i "aquest conjunt de dades compleix el GDPR" es gran. Els equips la subestimen contínuament.

Per que el GDPR limita l'us en l'entrenament ML

L'article 5(1)(b) del GDPR es la norma clau. S'anomena principi de limitacio de finalitat. Les dades personals nomes es poden utilitzar per a la finalitat per a la qual es van recollir.

Les comandes de clients es van recollir per al compliment de comandes. No per entrenar un model de recomanacio. Els historials de salut es van recollir per al tractament. No per entrenar un model de reingres. Les respostes d'enquestes es van recollir per obtenir comentaris sobre productes. No per entrenar un classificador de sentiment.

Per utilitzar aquests registres per a l'entrenament ML, un equip necessita una de tres coses:

  1. Consentiment explicit de cada persona per a la finalitat ML - difícil d'obtenir, sovint impossible retroactivament
  2. Una avaluacio d'interes llegítim que demostri que l'us ML es compatible - legalment incert, dependent de l'APD
  3. Anonimitzacio - substituir o eliminar detalls personals perque el conjunt de dades deixi de ser personal segons el GDPR

L'anonimitzacio adequada dona la major certesa legal. El repte es fer-ho be cada vegada.

El problema dels scripts puntuals

Els equips que escriuen un nou script Python per a cada conjunt de dades creen problemes acumulats.

Cobertura incompleta. Un script construit per a un esquema concret passa per alt nous camps. Una columna de notes clíniques afegida fa sis mesos? No esta al regex. Un camp de segon nom? El script nomes gestiona patrons de nom i cognom.

Sense consistencia. El conjunt A es va processar amb script_v1. El conjunt B va usar script_v3. El conjunt C el va processar un altre membre de l'equip. El conjunt d'entrenament combinat te tres metodes diferents aplicats. Un DPO no el pot certificar.

Sense rastre d'auditoria. El script va funcionar. Que va canviar? Quines entitats es van trobar? Sense registres de processament, el compliment es impossible. Quan un auditor de l'APD pregunta "com sabeu que aquest conjunt d'entrenament esta net?", la resposta "hem executat un script Python" no es suficient.

Deriva del model. Els patrons regex que funcionaven el 2023 passen per alt nous formats d'identificadors de 2024. Els scripts no s'actualitzen sols.

Una guia de processament per lots

Un equip d'IA sanitaria necessita anonimitzar 8.000 historials de pacients. L'equip dels EUA necessita acces des d'una oficina de la UE. S'aplica Schrems II: els registres d'origen europeu no es poden transferir a infraestructura dels EUA sense les mesures adequades.

Via tradicional: Un enginyer de dades escriu un script personalitzat. De dos a tres dies de desenvolupament. Un o dos dies de revisio del DPO. Un dia d'iteracio. Total: quatre a sis dies. El projecte ML s'endarrereix.

Via de processament per lots:

  1. Exportar els 8.000 registres com a CSV
  2. Carregar al processament per lots
  3. Establir tipus d'entitat: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Triar metode: Replace (substitueix per valors sinteticament realistes per preservar l'estructura)
  5. Processar: 45 minuts per a 8.000 registres
  6. Descarregar el CSV net
  7. El DPO revisa les metadades de processament - entitats trobades per registre, metodes aplicats: 2 hores
  8. El DPO aprova. La transferencia es realitza.

Temps total: 45 minuts mes 2 hores de revisio del DPO. En lloc de quatre a sis dies.

Consulteu la guia d'entrenament de la Llei d'IA de la UE per saber com aquests mateixos passos satisfan les obligacions de l'article 10.

Replace vs. Redact per a l'us en ML

El metode d'anonimitzacio importa per a la qualitat del model.

Redact substitueix el PIE per un token com [REDACTED]. Aixo funciona per a models de deteccio de PIE. Per a altres tasques - sentiment, classificacio, recomanacio - perjudica. El model apren que [REDACTED] es un token especial. No pot aprendre de la distribucio natural de noms i valors.

Replace canvia "Joan Garcia" per "David Chen". Canvia "jgarcia@empresa.com" per "dchen@synthetic.com". L'estructura es manté intacta. La posicio de les entitats, els patrons de co-ocurrencia, el flux de les frases - tot preservat. El model apren a partir d'un context realista.

Per als conjunts d'entrenament ML, Replace es l'opcio correcta. El model no apren els valors falsos. Apren els patrons al seu voltant. Aixo es el que importa.

Schrems II i les transferencies transfrontereres

La sentencia Schrems II (TJUE, 2020) va invalidar el Privacy Shield UE-EUA. Els registres d'origen europeu no es poden transferir a infraestructura ML dels EUA - AWS US-East, GCP US-Central - sense les mesures adequades.

Les tres mesures principals son:

  • Clausules contractuals tipus amb una Avaluacio de l'Impacte de la Transferencia
  • Normes corporatives vinculants per a transferencies dins d'un grup d'empreses
  • Derogacio per a registres anonimitzats - els fitxers correctament anonimitzats ja no son personals sota el GDPR i estan exempts de les normes de transferencia

Per als equips que utilitzen infraestructura dels EUA amb conjunts d'origen europeu, l'anonimitzacio adequada elimina el problema de Schrems II. El conjunt net no es personal. Es pot moure lliurement.

Aquest es un dels avantatges practics mes forts de l'anonimitzacio per lots. Fa mes que satisfer el GDPR. Elimina completament la friccio transfronterera.

Per a mes informacio sobre les restriccions de transferencia, consulteu la guia de limitacio de finalitat GDPR.

Que cal lliurar al DPO

En presentar un conjunt d'entrenament net per a l'aprovacio del DPO, incloeu-hi aquests cinc elements:

  1. Descripcio de la font. Quin era el conjunt de dades original? Quina era la finalitat de recollida? Quines categories personals contenia?
  2. Configuracio de l'anonimitzacio. Quins tipus d'entitat es van detectar i substituir? Quin metode es va aplicar?
  3. Metadades de processament. Recomptes d'entitats per registre, puntuacions de confianca, total de registres processats.
  4. Avaluacio del risc residual. Quina es la probabilitat que algun individu pugui ser reidentificat? Per a l'anonimitzacio amb el metode Replace amb mes de 285 tipus d'entitat en text estructurat, aquesta probabilitat es molt baixa.
  5. Us previst. Quin model s'entrenara? Quina es la finalitat de l'entrenament?

El processament per lots proporciona els elements 2 i 3 automaticament. Els elements 1, 4 i 5 provenen del cientific de dades.

Consulteu l'API de lots d'anonym.legal per saber com es retornen les metadades de processament amb cada treball.

El que guanyeu

Els conjunts ML conformes al GDPR son assolibles sense scripts personalitzats, sense retards de dies i sense perdre qualitat del model.

El metode Replace manté les propietats del llenguatge natural que importan per a l'entrenament PNL. Elimina els detalls personals que creen risc GDPR.

45 minuts de processament per lots es la diferencia entre una revisio de compliment endarrerida i una aprovacio directa del DPO.

Fonts

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.