Reproducerbar privacy: Hvorfor ML-teams har brug for forudindstillinger, ikke bare dokumentation
DPO'en godkendte anonymiseringsplanen. Den dækker fire punkter: navne, e-mails, telefonnumre og fødselsdatoer. Metoden er Erstat. Planen er fire sider og lever i compliance-wikien.
Tolv datavidenskabsmænd læste den ved kickoff. Hver opsatte værktøjet på egen hånd. Nogle tilføjede national-ID'er. Nogle tilføjede IP-adresser. Nogle skiftede til Redigér. Tre måneder senere er sættene ikke konsistente.
CNIL kontrollerede flere AI-virksomheder i 2024. Problemet: forkert brug af personoplysninger i modelsæt. De spurgte ikke bare om, hvorvidt anonymisering skete. De spurgte, hvor konsistent den blev anvendt.
Dokumentation er nødvendig. Det er ikke nok. Løsningen er forudindstillingen.
Hvorfor ML-modelsæt har brug for deres egen konfiguration
Opbygning af modelsæt har unikke behov. Generel dokumentanonymisering deler dem ikke.
Erstat, ikke Redigér. Modeller trænet på tekst, hvor navne bliver [REDACTED], lærer det token som et navnpositionmarkør. Dette skader modellen. Erstat bytter "John Smith" med "David Chen." Modellen ser rigtige navnemønstre. Den ser ikke et masketoken.
Samme proces for alle poster. Et sæt, hvor 70 % af navnene er erstattet og 30 % er [REDACTED], sender blandede signaler. Hver post skal gennemgå de samme trin.
Samme entitetsliste. Hvis sættet indeholder sundhedsoplysninger, vil fjernelse af navne, men at lade fødselsdatoer blive i nogle poster, skabe huller. Alle tolv datavidenskabsmænd skal fjerne de samme typer.
Ingen overfjernelse. At fjerne datoer, der er tidsstempler — ikke fødselsdatoer — reducerer sætkvaliteten uden compliancegevinst. Den godkendte forudindstilling siger præcist, hvilke elementer der skal fjernes.
Reproducerbart output. Hvis et sæt skal køres igen — siger vi, efter at en manglende entitetstype er fundet — giver forudindstillingen det samme resultat hver gang. Ad hoc-konfigurationer gør det ikke.
Problemet med tolv datavidenskabsmænd
Et fintech ML-team i Europa bruger sæt fra kundelogs. DPO'en godkendte formålet — svindeldetektering — med én regel: alle kundenavne, e-mails, telefonnumre og betalings-ID'er skal erstattes, inden modelarbejde starter.
Uden forudindstillinger:
- Person 1 fjerner navne, e-mails og telefonnumre — men overser betalings-ID'er
- Person 2 inkluderer betalings-ID'er, men bruger Redigér, ikke Erstat
- Person 3 følger plandokumentet nøjagtigt
- Personerne 4–12 varierer
Det fusionerede sæt er delvist ikke-compliant og delvist overbehandlet. En DPO kan ikke certificere det.
Med en DPO-godkendt forudindstilling:
- DPO'en opretter "ML Dev — Svindeldetektering" med præcise entitetstyper og erstatningsmetoden
- Forudindstillingen distribueres til alle tolv med én regel: brug denne til alt sætarbejde
- Ingen kan ændre forudindstillingen uden DPO-godkendelse
Hver person producerer nu det samme output. Det fusionerede sæt er konsistent. Den årlige AI-revision består med nul fund. Det foregående år havde tre fund fra inkonsistent sætarbejde.
GDPR og AI Act
Opdateret for 2026
EU AI Act trådte fuldt i kraft i august 2024. Det tilføjer regler for AI-systemer, der bruger personoplysninger til modelarbejde. Høj-risiko AI-systemer skal dokumentere deres sæt, herunder hvilken anonymisering der blev anvendt.
GDPR Artikel 5(1)(b) — formålsbegrænsningsreglen — blokerer brug af personoplysninger uden et klart retsgrundlag. CNILs sager fra 2024 fokuserede på dette hul: oplysninger indsamlet til én tjeneste, brugt til modelarbejde uden gyldigt grundlag eller anonymisering.
Forudindstillinger hjælper med at opfylde begge sæt regler:
- Forudindstillingens navn og konfiguration: den dokumenterede metode
- Behandlingslogge: bevis for, at metoden blev anvendt
- DPO-godkendelse: en registreret godkendelse af konfigurationen
Dette skaber det revisionsspor, begge love kræver. For Artikel 10-forpligtelser i detaljer, se EU AI Act-guiden til træningsdata.
Forudindstillingskonfiguration til NLP-modelsæt
Typer at inkludere i de fleste NLP-modelsæt:
- PERSON — Erstat med lignende navne
- EMAIL_ADDRESS — Erstat med syntetiske adresser
- PHONE_NUMBER — Erstat med syntetiske numre
- CREDIT_CARD / IBAN — Erstat eller Redigér
- LOCATION — Erstat med lignende steder, hvis placering er relevant; Redigér, hvis ikke
- DATE_OF_BIRTH — Redigér; aldersgruppering er ofte nødvendig
Typer der ofte udelades:
- Generelle datoer — tidsstempler hjælper temporale modeller
- Organisationsnavne — hjælper navngivne-entitetsmodeller
- URL'er — hjælper link- og referencemodeller
ML-lederen og DPO'en fastlægger disse regler i den godkendte forudindstilling. Teammedlemmer anvender den. De træffer ikke konfigurationsvalg.
Forudindstillinger som institutionel hukommelse
Før forudindstillinger. Den rette entitetskonfiguration levede i hovederne på tre datavidenskabsmænd. De havde arbejdet sig igennem compliancegennemgangen. To forlod i Q3. Viden fulgte med dem.
Efter forudindstillinger. Konfigurationen lever i "ML Dev — Kundejournaler v2.1." Versionsloggen viser, hvornår den blev oprettet, hvem der godkendte den, og hvad der ændrede sig fra v2.0. Nye teammedlemmer bruger forudindstillingen og får al den viden, der er bygget ind i den.
Version 2.1 tilføjede IBAN-detektion efter en gennemgang fandt, at den manglede. Version 2.0 blev godkendt i februar 2025. Loggen er komplet.
For hvordan behandlingslogge og DPO-gennemgangsflows fungerer, se GDPR ML-træningsanonymiseringsguiden.
Forudindstillinger vs. CNIL-mønsteret
CNILs AI-sager fra 2024 fastlagde et klart mønster. De spørger ikke bare hvad der blev fjernet, men hvordan det blev styret. En delt forudindstilling med en DPO-godkendelsesregistrering og behandlingslogge besvarer dette direkte.
En ad hoc-konfiguration gør det ikke. Det samme hul eksisterer i andre EU DPA-sager, der følger CNIL-logikken. For mere om CNILs AI-tilgang, se CNIL GDPR AI-complianceguiden.
Konklusion
Dokumentation fortæller teammedlemmer, hvad de skal gøre. Forudindstillinger gør det nemt — og håndhæveligt — at gøre det på samme måde hver gang.
For ML-modelsæt er konsistens både et juridisk behov og et teknisk. Forudindstillingen opfylder begge på én gang.
DPA'er, der ser på AI-praksis, ønsker bevis for ensartet anonymisering. En forudindstilling, der anvendes på samme måde på tværs af alt sætarbejde, er det klareste bevis, du kan give dem.