Reproducerbar privatliv: Hvorfor ML-teams har brug for konfigurationspræferencer, ikke kun dokumentation
DPO'en godkendte dokumentet for anonymiseringsproceduren. Det specificerer: fjern navne, e-mails, telefonnumre og fødselsdatoer fra træningsdatasæt ved hjælp af Erstat metoden. Dokumentet er 4 sider og findes i compliance-wikien.
Tolv dataforskere konsulterer det ved projektstart. De konfigurerer deres egne versioner af anonymiseringsværktøjet. Nogle tilføjer nationale ID'er. Nogle inkluderer IP-adresser. Nogle bruger Rediger i stedet for Erstat. Tre måneder senere er træningsdatasættene inkonsistente.
CNIL (Frankrigs DPA) undersøgte flere AI-virksomheder i 2024 for forkert brug af personlige data i træningsdatasæt. Undersøgelserne undersøgte ikke kun, om anonymisering fandt sted, men også hvor konsekvent det blev anvendt.
Dokumentation er nødvendig. Det er ikke tilstrækkeligt. Den tekniske løsning er præferencen.
Hvorfor ML-træningsdata kræver specifik konfiguration
Anonymisering af ML-træningsdata har krav, som generel dokumentanonymisering ikke har:
Erstat, ikke Rediger: Neurale sprogmodeller, der er trænet på tekst, hvor navne er erstattet med [REDACTED] tokens, lærer, at [REDACTED] er en særlig identifikator, der optræder i navnepositioner. Dette skaber uønsket modeladfærd. Erstat metoden (erstatte "John Smith" med "David Chen") bevarer den statistiske fordeling af navne i teksten, mens den fjerner de identificerende oplysninger. Modellen lærer fra realistiske navnepositionsfordelinger, ikke fra en maskeringstoken.
Konsistens på tværs af datasættet: Et træningsdatasæt, hvor 70% af navnene er erstattet, og 30% er [REDACTED], producerer et inkonsekvent træningssignal. Alle poster skal behandles ens.
Konsistent enhedsvalg: Hvis træningsdatasættet indeholder sundhedsdata, skaber fjernelse af navne, men ikke fødselsdatoer i nogle poster, inkonsistens. Alle 12 dataforskere skal fjerne den samme sæt enhedstyper.
Ingen over-anonymisering: Erstat metoden overanvendes — fjernelse af datoer, der blot er tidsstempler, ikke fødselsdatoer — forringer datasættets nytte uden at forbedre overholdelsen. Den godkendte præference definerer præcist, hvilke datatyper der skal fjernes (fødselsdato, ikke generelle tidsstempler).
Reproducerbarhed på tværs af kørsel: Hvis det samme datasæt skal genbehandles (f.eks. efter at have opdaget en savnet enhedstype), producerer genbehandling med den samme præference konsekvent output. Ad-hoc konfigurationer er ikke reproducerbare.
Problemet med 12 dataforskere
Et europæisk fintech-virksomheds ML-team bruger et træningsdatasæt afledt af kundens interaktionslogfiler. DPO'en godkendte behandlingsformålet (modeltræning til svindeldetektion) med betingelser: alle kunders navne, e-mails, telefonnumre og betalingsidentifikatorer skal erstattes ved hjælp af Erstat metoden, før nogen modeltræning.
Uden præferencer:
- Dataforsker 1 fjerner navne, e-mails, telefonnumre (inkluderer ikke betalingsidentifikatorer)
- Dataforsker 2 inkluderer betalingsidentifikatorer, men bruger Rediger, ikke Erstat
- Dataforsker 3 følger proceduredokumentet nøjagtigt
- Dataforskere 4-12 varierer
Resultat: 12 forskelligt behandlede versioner af træningsdataene. Det sammenlagte datasæt er delvist ikke-kompatibelt, delvist over-anonymiseret og statistisk inkonsekvent.
Med DPO-godkendt præference:
- DPO opretter "ML Træning — Svindeldetektion" præference med nøjagtige enhedstyper og Erstat metoden
- Præference deles med alle 12 dataforskere med instruktioner: "Brug denne præference til al træningsdataforberedelse"
- Præference kan ikke ændres uden DPO-godkendelse (konfigurationsadgangskontrol)
Resultat: Alle 12 dataforskere producerer identisk anonymiseringsoutput. Det sammenlagte datasæt er konsistent. Den årlige AI-overholdelsesaudit består uden fund.
Tidligere år: 3 fund relateret til inkonsistent ML-træningsdata anonymisering. Efter præference: 0 fund.
GDPR AI Act-intersektion
EU AI Act (gældende siden august 2024) tilføjer overholdelseskrav til AI-systemer, der bruger personlige data til træning. Højrisiko AI-systemer skal dokumentere deres træningsdata, herunder anvendte anonymiseringstiltag.
GDPR's formålsbegrænsningsprincip (Artikel 5(1)(b)) begrænser brugen af personlige data til ML-træning uden specifik juridisk basis. CNIL's håndhævelsesaktioner i 2024 mod AI-virksomheder fokuserede på denne intersektion: personlige data indsamlet til servicelevering, der blev brugt til træning uden tilstrækkelig juridisk basis eller anonymisering.
Dokumentationskravene fra både GDPR og AI Act er lettere at opfylde, når anonymiseringsprocessen for træningsdata teknisk håndhæves gennem præferencer:
- Præfiksnavn og konfiguration: den dokumenterede anonymiseringsmetodologi
- Behandlingslogfiler: bevis for, at metodologien blev anvendt på specifikke datasæt
- DPO-godkendelse: registreret beslutning, der godkender præferencekonfigurationen
Dette skaber den revisionsspor, som begge reguleringer kræver.
Præferencekonfiguration for ML-træningsdata
Enhedstyper for de fleste NLP-træningsdata:
- PERSON (navne — Erstat med lignende navne)
- EMAIL_ADDRESS (Erstat med syntetiske e-mails)
- PHONE_NUMBER (Erstat med syntetiske telefonnumre)
- CREDIT_CARD / IBAN (Erstat eller Rediger — betalingsdata)
- LOCATION (Erstat med lignende placeringer, hvis geo er nødvendig for modellen; Rediger hvis ikke)
- DATE_OF_BIRTH (Rediger — aldersgeneralisering ofte nødvendig)
Enhedstyper, der typisk IKKE inkluderes for NLP-træningsdata:
- Generelle datoer (ikke fødselsdato) — tidsstempler og datoer i teksten er ofte nødvendige for tidsmodelering
- Organisationsnavne — ofte nødvendige for enhedsgenkendelsestræning
- URLs — ofte nødvendige for linking og referenceudtræk
ML-lederen og DPO'en definerer disse forskelle i den godkendte præference. Individuelle dataforskere træffer ikke disse beslutninger — de anvender præferencen.
Institutionel viden og præferenceversionering
Præferencer tjener en institutionel hukommelsesfunktion:
Før præferencer: Den korrekte enhedskonfiguration for ML-træningsdata levede i sindene på de tre dataforskere, der havde arbejdet igennem compliance-gennemgangsprocessen. Da to af dem forlod i Q3, gik den institutionelle viden tabt.
Efter præferencer: Konfigurationen er kodet i "ML Træning — Kundedata v2.1". Versionshistorikken viser, hvornår den blev oprettet, hvem der godkendte den, og hvad der ændrede sig mellem v2.0 og v2.1. Nye dataforskere bruger præferencen og arver den institutionelle viden, der er indlejret i den.
Version 2.1 tilføjede IBAN-detektion efter en compliance-gennemgang fandt, at den manglede. Versionsoptegnelser for 2.0 viser, at den blev godkendt i februar 2025. Revisionssporet er komplet.
Konklusion
Dokumentation fortæller teammedlemmerne, hvad de skal gøre. Præferencer gør det teknisk nemt — og teknisk håndhæveligt — at gøre det konsekvent.
For ML-træningsdata specifikt er konsistens både et overholdelseskrav (GDPR, AI Act) og et teknisk krav (modeltræning kræver konsekvent forbehandling). Præferencen opfylder begge samtidig.
CNIL og andre DPA'er, der undersøger AI-træningsdatapraksis, vil se efter beviser for systematisk, konsekvent anonymisering. En præference anvendt ensartet på tværs af al træningsdataforberedelse er det stærkeste bevis, der er tilgængeligt.
Kilder: