By · Last updated 2026-06-04

Tillbaka till BloggenTeknisk

Reproducerbar integritet: ML-förinställningar

Anonymisering av ML-träningsdata måste vara konsekvent och reproducerbar. Om datavetarna A och B tillämpar olika entitetstyper blir träningsdatauppsättningarna inkonsekventa.

June 4, 20266 min läsning
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproducerbar integritet: Varför ML-team behöver förinställningar, inte bara dokument

DPO:n godkände anonymiseringsplanen. Den täcker fyra punkter: namn, e-postadresser, telefonnummer och födelsedatum. Metoden är Ersätt. Planen är fyra sidor och finns i compliance-wikin.

Tolv datavetare läste den vid kickoffen. Var och en konfigurerar verktyget på egen hand. Vissa lägger till nationella ID:n. Vissa lägger till IP-adresser. Vissa byter till Redact. Tre månader senare är datauppsättningarna inte konsekventa.

CNIL granskade flera AI-företag 2024. Problemet: felaktig användning av personuppgifter i modelldatauppsättningar. De frågade inte bara om anonymisering skett. De frågade hur konsekvent det tillämpades.

Dokument behövs. De räcker inte. Lösningen är förinställningen.

Varför ML-modelldatauppsättningar behöver sin egen konfiguration

Att bygga modelldatauppsättningar har unika behov. Allmän dokumentanonimisering delar dem inte.

Ersätt, inte Redact. Modeller tränade på text där namn blir [REDACTED] lär sig den token som en namnpositionsmarkör. Detta skadar modellen. Ersätt byter "John Smith" mot "David Chen." Modellen ser riktiga namnmönster. Den ser inte en maskeringstoken.

Samma process för alla poster. En datauppsättning där 70% av namnen är ersatta och 30% är [REDACTED] ger blandat signal. Varje post måste gå igenom samma steg.

Samma entitetslista. Om datauppsättningen innehåller hälsouppgifter skapar borttagning av namn men kvarlämnande av födelsedatum i vissa poster luckor. Alla tolv datavetare måste ta bort samma typer.

Ingen överredigering. Att ta bort datum som är tidsstämplar — inte födelsedatum — minskar datauppsättningens kvalitet utan compliance-vinst. Den godkända förinställningen anger exakt vilka objekt som ska tas bort.

Reproducerbar utdata. Om en datauppsättning måste köras igen — säg efter att en missad entitetstyp hittas — ger förinställningen samma resultat varje gång. Ad-hoc-konfigurationer gör det inte.

Problemet med tolv datavetare

Ett fintech ML-team i Europa använder datauppsättningar från kundloggar. DPO:n godkände syftet — bedrägeridetektering — med en regel: alla kundnamn, e-postadresser, telefonnummer och betalnings-ID:n måste ersättas innan modellarbete börjar.

Utan förinställningar:

  • Person 1 tar bort namn, e-postadresser och telefonnummer — men missar betalnings-ID:n
  • Person 2 inkluderar betalnings-ID:n men använder Redact, inte Ersätt
  • Person 3 följer plandokumentet exakt
  • Personerna 4–12 varierar

Den sammanslagna datauppsättningen är delvis icke-kompatibel och delvis överbearbetad. En DPO kan inte certifiera den.

Med en DPO-godkänd förinställning:

  • DPO:n skapar "ML Dev — Bedrägeridetektering" med exakta entitetstyper och Ersätt-metoden
  • Förinställningen går till alla tolv personer med en regel: använd detta för allt datauppsättningsarbete
  • Ingen kan ändra förinställningen utan DPO:ns godkännande

Varje person producerar nu samma utdata. Den sammanslagna datauppsättningen är konsekvent. Den årliga AI-revisionen passerar utan resultat. Föregående år hade tre resultat från inkonsekvent datauppsättningsarbete.

GDPR och AI-lagen

Uppdaterat för 2026

EU:s AI-lag trädde i full kraft i augusti 2024. Den lägger till regler för AI-system som använder personuppgifter för modellarbete. AI-system med hög risk måste dokumentera sina datauppsättningar, inklusive vilken anonymisering som tillämpades.

GDPR Artikel 5(1)(b) — ändamålsbegränsningsregeln — blockerar användning av personuppgifter utan en tydlig rättslig grund. CNIL:s fall 2024 fokuserade på denna lucka: uppgifter insamlade för en tjänst som används för modellarbete utan giltig grund eller anonymisering.

Förinställningar hjälper till att uppfylla båda regeluppsättningarna:

  • Förinställningens namn och konfiguration: den dokumenterade metoden
  • Behandlingsloggar: bevis för att metoden tillämpades
  • DPO:ns godkännande: ett registrerat godkännande av konfigurationen

Detta skapar den revisionskedja som båda lagarna kräver. För Artikel 10-skyldigheter i detalj, se EU AI-lagens träningsdataguide.

Förinställningskonfiguration för NLP-modelldatauppsättningar

Typer att inkludera i de flesta NLP-modelldatauppsättningar:

  • PERSON — Ersätt med liknande namn
  • EMAIL_ADDRESS — Ersätt med syntetiska adresser
  • PHONE_NUMBER — Ersätt med syntetiska nummer
  • CREDIT_CARD / IBAN — Ersätt eller Redact
  • LOCATION — Ersätt med liknande platser om platsen spelar roll; Redact om inte
  • DATE_OF_BIRTH — Redact; åldersgruppering behövs ofta

Typer som ofta lämnas utanför:

  • Allmänna datum — tidsstämplar hjälper temporala modeller
  • Organisationsnamn — hjälper modeller för namngivna entiteter
  • URL:er — hjälper länk- och referensmodeller

ML-ledaren och DPO:n fastställer dessa regler i den godkända förinställningen. Teammedlemmar tillämpar den. De gör inte konfigurationsval.

Förinställningar som institutionellt minne

Innan förinställningar. Rätt entitetskonfiguration fanns i huvudet på tre datavetare. De hade arbetat igenom compliance-granskningen. Två slutade i kvartal 3. Kunskapen gick med dem.

Efter förinställningar. Konfigurationen finns i "ML Dev — Kundposter v2.1". Versionsloggen visar när den skapades, vem som godkände den och vad som ändrades från v2.0. Nya teammedlemmar använder förinställningen och får all kunskap inbyggd i den.

Version 2.1 lade till IBAN-detektering efter att en granskning fann att den saknades. Version 2.0 godkändes i februari 2025. Loggen är fullständig.

För hur behandlingsloggar och DPO-granskningsflöden fungerar, se guiden för GDPR ML-träningsanonimisering.

Förinställningar kontra CNIL-mönstret

CNIL:s AI-fall 2024 sätter ett tydligt mönster. De frågar inte bara vad som togs bort utan hur det styrdes. En delad förinställning med ett DPO-godkännanderegister och behandlingsloggar svarar på detta direkt.

En ad-hoc-konfiguration gör det inte. Samma lucka finns i andra EU DPA-fall som följer CNIL:s logik. För mer om CNIL:s AI-tillvägagångssätt, se CNIL GDPR AI compliance-guiden.

Slutsats

Dokument berättar för teammedlemmar vad de ska göra. Förinställningar gör det enkelt — och genomförbart — att göra det på samma sätt varje gång.

För ML-modelldatauppsättningar är konsekvens både ett juridiskt och tekniskt behov. Förinställningen uppfyller båda på en gång.

DPA:er som tittar på AI-praxis vill ha bevis på enhetlig anonymisering. En förinställning som tillämpas på samma sätt i allt datauppsättningsarbete är det tydligaste bevis du kan ge dem.

Källor

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.