Reproducerbar integritet: Varför ML-team behöver förinställningar, inte bara dokument
DPO:n godkände anonymiseringsplanen. Den täcker fyra punkter: namn, e-postadresser, telefonnummer och födelsedatum. Metoden är Ersätt. Planen är fyra sidor och finns i compliance-wikin.
Tolv datavetare läste den vid kickoffen. Var och en konfigurerar verktyget på egen hand. Vissa lägger till nationella ID:n. Vissa lägger till IP-adresser. Vissa byter till Redact. Tre månader senare är datauppsättningarna inte konsekventa.
CNIL granskade flera AI-företag 2024. Problemet: felaktig användning av personuppgifter i modelldatauppsättningar. De frågade inte bara om anonymisering skett. De frågade hur konsekvent det tillämpades.
Dokument behövs. De räcker inte. Lösningen är förinställningen.
Varför ML-modelldatauppsättningar behöver sin egen konfiguration
Att bygga modelldatauppsättningar har unika behov. Allmän dokumentanonimisering delar dem inte.
Ersätt, inte Redact. Modeller tränade på text där namn blir [REDACTED] lär sig den token som en namnpositionsmarkör. Detta skadar modellen. Ersätt byter "John Smith" mot "David Chen." Modellen ser riktiga namnmönster. Den ser inte en maskeringstoken.
Samma process för alla poster. En datauppsättning där 70% av namnen är ersatta och 30% är [REDACTED] ger blandat signal. Varje post måste gå igenom samma steg.
Samma entitetslista. Om datauppsättningen innehåller hälsouppgifter skapar borttagning av namn men kvarlämnande av födelsedatum i vissa poster luckor. Alla tolv datavetare måste ta bort samma typer.
Ingen överredigering. Att ta bort datum som är tidsstämplar — inte födelsedatum — minskar datauppsättningens kvalitet utan compliance-vinst. Den godkända förinställningen anger exakt vilka objekt som ska tas bort.
Reproducerbar utdata. Om en datauppsättning måste köras igen — säg efter att en missad entitetstyp hittas — ger förinställningen samma resultat varje gång. Ad-hoc-konfigurationer gör det inte.
Problemet med tolv datavetare
Ett fintech ML-team i Europa använder datauppsättningar från kundloggar. DPO:n godkände syftet — bedrägeridetektering — med en regel: alla kundnamn, e-postadresser, telefonnummer och betalnings-ID:n måste ersättas innan modellarbete börjar.
Utan förinställningar:
- Person 1 tar bort namn, e-postadresser och telefonnummer — men missar betalnings-ID:n
- Person 2 inkluderar betalnings-ID:n men använder Redact, inte Ersätt
- Person 3 följer plandokumentet exakt
- Personerna 4–12 varierar
Den sammanslagna datauppsättningen är delvis icke-kompatibel och delvis överbearbetad. En DPO kan inte certifiera den.
Med en DPO-godkänd förinställning:
- DPO:n skapar "ML Dev — Bedrägeridetektering" med exakta entitetstyper och Ersätt-metoden
- Förinställningen går till alla tolv personer med en regel: använd detta för allt datauppsättningsarbete
- Ingen kan ändra förinställningen utan DPO:ns godkännande
Varje person producerar nu samma utdata. Den sammanslagna datauppsättningen är konsekvent. Den årliga AI-revisionen passerar utan resultat. Föregående år hade tre resultat från inkonsekvent datauppsättningsarbete.
GDPR och AI-lagen
Uppdaterat för 2026
EU:s AI-lag trädde i full kraft i augusti 2024. Den lägger till regler för AI-system som använder personuppgifter för modellarbete. AI-system med hög risk måste dokumentera sina datauppsättningar, inklusive vilken anonymisering som tillämpades.
GDPR Artikel 5(1)(b) — ändamålsbegränsningsregeln — blockerar användning av personuppgifter utan en tydlig rättslig grund. CNIL:s fall 2024 fokuserade på denna lucka: uppgifter insamlade för en tjänst som används för modellarbete utan giltig grund eller anonymisering.
Förinställningar hjälper till att uppfylla båda regeluppsättningarna:
- Förinställningens namn och konfiguration: den dokumenterade metoden
- Behandlingsloggar: bevis för att metoden tillämpades
- DPO:ns godkännande: ett registrerat godkännande av konfigurationen
Detta skapar den revisionskedja som båda lagarna kräver. För Artikel 10-skyldigheter i detalj, se EU AI-lagens träningsdataguide.
Förinställningskonfiguration för NLP-modelldatauppsättningar
Typer att inkludera i de flesta NLP-modelldatauppsättningar:
- PERSON — Ersätt med liknande namn
- EMAIL_ADDRESS — Ersätt med syntetiska adresser
- PHONE_NUMBER — Ersätt med syntetiska nummer
- CREDIT_CARD / IBAN — Ersätt eller Redact
- LOCATION — Ersätt med liknande platser om platsen spelar roll; Redact om inte
- DATE_OF_BIRTH — Redact; åldersgruppering behövs ofta
Typer som ofta lämnas utanför:
- Allmänna datum — tidsstämplar hjälper temporala modeller
- Organisationsnamn — hjälper modeller för namngivna entiteter
- URL:er — hjälper länk- och referensmodeller
ML-ledaren och DPO:n fastställer dessa regler i den godkända förinställningen. Teammedlemmar tillämpar den. De gör inte konfigurationsval.
Förinställningar som institutionellt minne
Innan förinställningar. Rätt entitetskonfiguration fanns i huvudet på tre datavetare. De hade arbetat igenom compliance-granskningen. Två slutade i kvartal 3. Kunskapen gick med dem.
Efter förinställningar. Konfigurationen finns i "ML Dev — Kundposter v2.1". Versionsloggen visar när den skapades, vem som godkände den och vad som ändrades från v2.0. Nya teammedlemmar använder förinställningen och får all kunskap inbyggd i den.
Version 2.1 lade till IBAN-detektering efter att en granskning fann att den saknades. Version 2.0 godkändes i februari 2025. Loggen är fullständig.
För hur behandlingsloggar och DPO-granskningsflöden fungerar, se guiden för GDPR ML-träningsanonimisering.
Förinställningar kontra CNIL-mönstret
CNIL:s AI-fall 2024 sätter ett tydligt mönster. De frågar inte bara vad som togs bort utan hur det styrdes. En delad förinställning med ett DPO-godkännanderegister och behandlingsloggar svarar på detta direkt.
En ad-hoc-konfiguration gör det inte. Samma lucka finns i andra EU DPA-fall som följer CNIL:s logik. För mer om CNIL:s AI-tillvägagångssätt, se CNIL GDPR AI compliance-guiden.
Slutsats
Dokument berättar för teammedlemmar vad de ska göra. Förinställningar gör det enkelt — och genomförbart — att göra det på samma sätt varje gång.
För ML-modelldatauppsättningar är konsekvens både ett juridiskt och tekniskt behov. Förinställningen uppfyller båda på en gång.
DPA:er som tittar på AI-praxis vill ha bevis på enhetlig anonymisering. En förinställning som tillämpas på samma sätt i allt datauppsättningsarbete är det tydligaste bevis du kan ge dem.