Tilbake til BloggTeknisk

Reproduserbar personvern: Hvorfor ML-team trenger konfigurasjonspresets, ikke bare dokumentasjon

Anonymisering av ML-treningsdata må være konsekvent og reproduserbar. Hvis dataforskere A og B bruker forskjellige enhetstyper, er treningsdatasett inkonsekvente. CNIL undersøkte AI-selskaper i 2024 for feilaktig bruk av treningsdata. Presets er den tekniske løsningen.

March 15, 20266 min lesing
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproduserbar personvern: Hvorfor ML-team trenger konfigurasjonspresets, ikke bare dokumentasjon

DPO godkjente dokumentet for anonymiseringsprosedyren. Det spesifiserer: fjern navn, e-poster, telefonnumre og fødselsdatoer fra treningsdatasett ved å bruke Erstatt-metoden. Dokumentet er 4 sider og ligger i compliance-wiki.

Tolv dataforskere konsulterer det ved prosjektoppstart. De konfigurerer sine egne versjoner av anonymiseringsverktøyet. Noen legger til nasjonale ID-er. Noen inkluderer IP-adresser. Noen bruker Rediger i stedet for Erstatt. Tre måneder senere er treningsdatasett inkonsekvente.

CNIL (Frankrikes DPA) undersøkte flere AI-selskaper i 2024 for feilaktig bruk av personopplysninger i treningsdatasett. Undersøkelsene undersøkte ikke bare om anonymisering skjedde, men hvor konsekvent det ble anvendt.

Dokumentasjon er nødvendig. Det er ikke tilstrekkelig. Den tekniske løsningen er preset.

Hvorfor ML-treningsdata krever spesifikk konfigurasjon

Anonymisering av ML-treningsdata har krav som generell dokumentanonymisering ikke har:

Erstatt, ikke Rediger: Nevrale språkmodeller trent på tekst der navn er erstattet med [REDACTED]-tokens lærer at [REDACTED] er en spesiell identifikator som vises i navneposisjoner. Dette skaper uønsket modellatferd. Erstatt-metoden (substituere "John Smith" med "David Chen") bevarer den statistiske fordelingen av navn i tekst samtidig som den fjerner identifiserende informasjon. Modellen lærer fra realistiske navneposisjonsfordelinger, ikke fra en maske-token.

Konsistens på tvers av datasettet: Et treningsdatasett der 70% av navnene er erstattet og 30% er [REDACTED] produserer inkonsekvent treningssignal. Alle poster bør behandles identisk.

Konsistent enhetsvalg: Hvis treningsdatasettet inneholder helsedata, skaper fjerning av navn men ikke fødselsdatoer i noen poster inkonsistens. Alle 12 dataforskere må fjerne det samme settet av enhetstyper.

Ingen over-anonymisering: Erstatt-metoden overbrukes — fjerning av datoer som bare er tidsstempler, ikke fødselsdato — forringer datasettets nytte uten å forbedre samsvar. Den godkjente preset definerer nøyaktig hvilke datotyper som skal fjernes (fødselsdato, ikke generelle tidsstempler).

Reproduserbarhet på tvers av kjøringer: Hvis det samme datasettet må prosesseres på nytt (f.eks. etter å ha oppdaget en utelatt enhetstype), gir reprosesserings med samme preset konsekvent utdata. Ad-hoc-konfigurasjoner er ikke reproduserbare.

Problemet med 12 dataforskere

Et europeisk fintech-selskaps ML-team bruker et treningsdatasett hentet fra kundens interaksjonslogger. DPO godkjente behandlingsformålet (modelltrening for svindeldeteksjon) med betingelser: alle kundens navn, e-poster, telefonnumre og betalingsidentifikatorer må erstattes ved hjelp av Erstatt-metoden før noen modelltrening.

Uten presets:

  • Dataforsker 1 fjerner navn, e-poster, telefonnumre (inkluderer ikke betalingsidentifikatorer)
  • Dataforsker 2 inkluderer betalingsidentifikatorer men bruker Rediger, ikke Erstatt
  • Dataforsker 3 følger prosedyredokumentet nøyaktig
  • Dataforskere 4-12 varierer

Resultat: 12 forskjellig behandlede versjoner av treningsdataene. Det sammenslåtte datasettet er delvis ikke-samsvarende, delvis over-anonymisert, og statistisk inkonsekvent.

Med DPO-godkjent preset:

  • DPO lager "ML Training — Fraud Detection" preset med nøyaktige enhetstyper og Erstatt-metode
  • Preset deles med alle 12 dataforskere med instruksjoner: "Bruk denne preset for all forberedelse av treningsdata"
  • Preset kan ikke endres uten DPO-godkjenning (konfigurasjonskontroll)

Resultat: Alle 12 dataforskere produserer identisk anonymiseringsutdata. Det sammenslåtte datasettet er konsistent. Årlig AI-samsvarsrevisjon bestås uten funn.

Tidligere år: 3 funn relatert til inkonsekvent anonymisering av ML-treningsdata. Etter preset: 0 funn.

GDPR AI Act-kryssing

EU AI Act (i kraft siden august 2024) legger til samsvarskrav for AI-systemer som bruker personopplysninger til trening. Høyrisiko AI-systemer må dokumentere treningsdataene sine, inkludert anonymiseringstiltak som er anvendt.

GDPRs formålsbegrensningsprinsipp (Artikkel 5(1)(b)) begrenser bruken av personopplysninger til ML-trening uten spesifikk juridisk basis. CNILs håndhevelsesaksjoner mot AI-selskaper i 2024 fokuserte på dette krysset: personopplysninger samlet inn for tjenestelevering som brukes til trening uten tilstrekkelig juridisk basis eller anonymisering.

Dokumentasjonskravene til både GDPR og AI Act er lettere å oppfylle når anonymiseringsprosessen for treningsdata teknisk håndheves gjennom presets:

  • Preset-navn og konfigurasjon: den dokumenterte anonymiseringsmetodikken
  • Behandlingslogger: bevis på at metodikken ble anvendt på spesifikke datasett
  • DPO-godkjenning: registrert beslutning som autoriserer preset-konfigurasjonen

Dette skaper revisjonsspor som begge forskrifter krever.

Preset-konfigurasjon for ML-treningsdata

Enhetstyper for de fleste NLP-treningsdata:

  • PERSON (navn — Erstatt med lignende navn)
  • EMAIL_ADDRESS (Erstatt med syntetiske e-poster)
  • PHONE_NUMBER (Erstatt med syntetiske telefonnumre)
  • CREDIT_CARD / IBAN (Erstatt eller Rediger — betalingsdata)
  • LOCATION (Erstatt med lignende steder hvis geo er nødvendig for modellen; Rediger hvis ikke)
  • DATE_OF_BIRTH (Rediger — aldersgeneralisering ofte nødvendig)

Enhetstyper som vanligvis IKKE inkluderes for NLP-treningsdata:

  • Generelle datoer (ikke fødselsdato) — tidsstempler og datoer i tekst er ofte nødvendige for tidsmodellering
  • Organisasjonsnavn — ofte nødvendig for enhetsgjenkjenningsopplæring
  • URL-er — ofte nødvendig for lenking og referanseutvinning

ML-leder og DPO definerer disse distinksjonene i den godkjente preset. Individuelle dataforskere tar ikke disse beslutningene — de anvender preset.

Institusjonell kunnskap og presetversjonering

Presets tjener en institusjonell minnefunksjon:

Før presets: Den korrekte enhetskonfigurasjonen for ML-treningsdata levde i hodene til de tre dataforskerne som hadde arbeidet seg gjennom samsvarsrevisjonsprosessen. Da to av dem forlot i Q3, gikk den institusjonelle kunnskapen tapt.

Etter presets: Konfigurasjonen er kodet i "ML Training — Customer Data v2.1". Versjonshistorikken viser når den ble opprettet, hvem som godkjente den, og hva som endret seg mellom v2.0 og v2.1. Nye dataforskere bruker preset og arver den institusjonelle kunnskapen som er innebygd i den.

Versjon 2.1 la til IBAN-detektering etter at en samsvarsrevisjon fant at den manglet. Versjon 2.0-logger viser at den ble godkjent i februar 2025. Revisjonssporene er komplette.

Konklusjon

Dokumentasjon forteller teammedlemmer hva de skal gjøre. Presets gjør det teknisk enkelt — og teknisk håndhevelig — å gjøre det konsekvent.

For ML-treningsdata spesifikt er konsistens både et samsvarskrav (GDPR, AI Act) og et teknisk krav (modelltrening krever konsekvent forbehandling). Preset tilfredsstiller begge samtidig.

CNIL og andre DPA-er som undersøker AI-treningsdatapraksis vil se etter bevis på systematisk, konsekvent anonymisering. En preset anvendt ensartet på tvers av all forberedelse av treningsdata er det sterkeste beviset tilgjengelig.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.