Reproducerbar integritet: Varför ML-team behöver förinställningar, inte bara dokument

DPO:n godkände anonymiseringsplanen. Den täcker fyra punkter: namn, e-postadresser, telefonnummer och födelsedatum. Metoden är Ersätt. Planen är fyra sidor och finns i compliance-wikin.

Tolv datavetare läste den vid kickoffen. Var och en konfigurerar verktyget på egen hand. Vissa lägger till nationella ID:n. Vissa lägger till IP-adresser. Vissa byter till Redact. Tre månader senare är datauppsättningarna inte konsekventa.

CNIL granskade flera AI-företag 2024. Problemet: felaktig användning av personuppgifter i modelldatauppsättningar. De frågade inte bara om anonymisering skett. De frågade hur konsekvent det tillämpades.

Dokument behövs. De räcker inte. Lösningen är förinställningen.

Varför ML-modelldatauppsättningar behöver sin egen konfiguration

Att bygga modelldatauppsättningar har unika behov. Allmän dokumentanonimisering delar dem inte.

Ersätt, inte Redact. Modeller tränade på text där namn blir [REDACTED] lär sig den token som en namnpositionsmarkör. Detta skadar modellen. Ersätt byter "John Smith" mot "David Chen." Modellen ser riktiga namnmönster. Den ser inte en maskeringstoken.

Samma process för alla poster. En datauppsättning där 70% av namnen är ersatta och 30% är [REDACTED] ger blandat signal. Varje post måste gå igenom samma steg.

Samma entitetslista. Om datauppsättningen innehåller hälsouppgifter skapar borttagning av namn men kvarlämnande av födelsedatum i vissa poster luckor. Alla tolv datavetare måste ta bort samma typer.

Ingen överredigering. Att ta bort datum som är tidsstämplar — inte födelsedatum — minskar datauppsättningens kvalitet utan compliance-vinst. Den godkända förinställningen anger exakt vilka objekt som ska tas bort.

Reproducerbar utdata. Om en datauppsättning måste köras igen — säg efter att en missad entitetstyp hittas — ger förinställningen samma resultat varje gång. Ad-hoc-konfigurationer gör det inte.

Problemet med tolv datavetare

Ett fintech ML-team i Europa använder datauppsättningar från kundloggar. DPO:n godkände syftet — bedrägeridetektering — med en regel: alla kundnamn, e-postadresser, telefonnummer och betalnings-ID:n måste ersättas innan modellarbete börjar.

Utan förinställningar:

Person 1 tar bort namn, e-postadresser och telefonnummer — men missar betalnings-ID:n
Person 2 inkluderar betalnings-ID:n men använder Redact, inte Ersätt
Person 3 följer plandokumentet exakt
Personerna 4–12 varierar

Den sammanslagna datauppsättningen är delvis icke-kompatibel och delvis överbearbetad. En DPO kan inte certifiera den.

Med en DPO-godkänd förinställning:

DPO:n skapar "ML Dev — Bedrägeridetektering" med exakta entitetstyper och Ersätt-metoden
Förinställningen går till alla tolv personer med en regel: använd detta för allt datauppsättningsarbete
Ingen kan ändra förinställningen utan DPO:ns godkännande

Varje person producerar nu samma utdata. Den sammanslagna datauppsättningen är konsekvent. Den årliga AI-revisionen passerar utan resultat. Föregående år hade tre resultat från inkonsekvent datauppsättningsarbete.

Uppdaterat för 2026

EU:s AI-lag trädde i full kraft i augusti 2024. Den lägger till regler för AI-system som använder personuppgifter för modellarbete. AI-system med hög risk måste dokumentera sina datauppsättningar, inklusive vilken anonymisering som tillämpades.

GDPR Artikel 5(1)(b) — ändamålsbegränsningsregeln — blockerar användning av personuppgifter utan en tydlig rättslig grund. CNIL:s fall 2024 fokuserade på denna lucka: uppgifter insamlade för en tjänst som används för modellarbete utan giltig grund eller anonymisering.

Förinställningar hjälper till att uppfylla båda regeluppsättningarna:

Förinställningens namn och konfiguration: den dokumenterade metoden
Behandlingsloggar: bevis för att metoden tillämpades
DPO:ns godkännande: ett registrerat godkännande av konfigurationen

Detta skapar den revisionskedja som båda lagarna kräver. För Artikel 10-skyldigheter i detalj, se EU AI-lagens träningsdataguide.

Förinställningskonfiguration för NLP-modelldatauppsättningar

Typer att inkludera i de flesta NLP-modelldatauppsättningar:

PERSON — Ersätt med liknande namn
EMAIL_ADDRESS — Ersätt med syntetiska adresser
PHONE_NUMBER — Ersätt med syntetiska nummer
CREDIT_CARD / IBAN — Ersätt eller Redact
LOCATION — Ersätt med liknande platser om platsen spelar roll; Redact om inte
DATE_OF_BIRTH — Redact; åldersgruppering behövs ofta

Typer som ofta lämnas utanför:

Allmänna datum — tidsstämplar hjälper temporala modeller
Organisationsnamn — hjälper modeller för namngivna entiteter
URL:er — hjälper länk- och referensmodeller

ML-ledaren och DPO:n fastställer dessa regler i den godkända förinställningen. Teammedlemmar tillämpar den. De gör inte konfigurationsval.

Förinställningar som institutionellt minne

Innan förinställningar. Rätt entitetskonfiguration fanns i huvudet på tre datavetare. De hade arbetat igenom compliance-granskningen. Två slutade i kvartal 3. Kunskapen gick med dem.

Efter förinställningar. Konfigurationen finns i "ML Dev — Kundposter v2.1". Versionsloggen visar när den skapades, vem som godkände den och vad som ändrades från v2.0. Nya teammedlemmar använder förinställningen och får all kunskap inbyggd i den.

Version 2.1 lade till IBAN-detektering efter att en granskning fann att den saknades. Version 2.0 godkändes i februari 2025. Loggen är fullständig.

För hur behandlingsloggar och DPO-granskningsflöden fungerar, se guiden för GDPR ML-träningsanonimisering.

Förinställningar kontra CNIL-mönstret

CNIL:s AI-fall 2024 sätter ett tydligt mönster. De frågar inte bara vad som togs bort utan hur det styrdes. En delad förinställning med ett DPO-godkännanderegister och behandlingsloggar svarar på detta direkt.

En ad-hoc-konfiguration gör det inte. Samma lucka finns i andra EU DPA-fall som följer CNIL:s logik. För mer om CNIL:s AI-tillvägagångssätt, se CNIL GDPR AI compliance-guiden.

Slutsats

Dokument berättar för teammedlemmar vad de ska göra. Förinställningar gör det enkelt — och genomförbart — att göra det på samma sätt varje gång.

För ML-modelldatauppsättningar är konsekvens både ett juridiskt och tekniskt behov. Förinställningen uppfyller båda på en gång.

DPA:er som tittar på AI-praxis vill ha bevis på enhetlig anonymisering. En förinställning som tillämpas på samma sätt i allt datauppsättningsarbete är det tydligaste bevis du kan ge dem.

Källor

Relaterade Artiklar

Teknisk

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

Börja Gratis Provperiod Visa Funktioner

Reproducerbar integritet: ML-förinställningar

Reproducerbar integritet: Varför ML-team behöver förinställningar, inte bara dokument

Varför ML-modelldatauppsättningar behöver sin egen konfiguration

Problemet med tolv datavetare

Förinställningskonfiguration för NLP-modelldatauppsättningar

Förinställningar som institutionellt minne

Förinställningar kontra CNIL-mönstret

Slutsats

Källor

Relaterade Artiklar

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Redo att skydda din data?

Reproducerbar integritet: ML-förinställningar

Reproducerbar integritet: Varför ML-team behöver förinställningar, inte bara dokument

Varför ML-modelldatauppsättningar behöver sin egen konfiguration

Problemet med tolv datavetare

GDPR och AI-lagen

Förinställningskonfiguration för NLP-modelldatauppsättningar

Förinställningar som institutionellt minne

Förinställningar kontra CNIL-mönstret

Slutsats

Källor

Relaterade Artiklar

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Redo att skydda din data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow