Tilbage til BlogTeknisk

GDPR-kompatible ML-træningsdata: Anonymisering af...

GDPR begrænser brugen af persondata til ML-træning ud over det oprindelige indsamlingformål.

April 20, 20267 min læsning
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-kompatible ML-træningsdata: Anonymisering af 10.000 poster uden at skrive kode

Hvert data science-team, der arbejder med GDPR-omfattet data, har skrevet en eller anden version af dette script:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Dette er ikke GDPR-overholdelse. Det er erstatning af e-mailadresse. Datasættet indeholder stadig navne, telefonnumre, medicinske journalnumre og et dusin andre PII-kategorier, der vil medføre overholdelsesfejl.

Kløften mellem "jeg anonymiserede e-mails" og "dette datasæt er GDPR-kompatibelt til ML-træning" er stor, konsekvent og rutinemæssigt undervurderet.

Hvorfor GDPR begrænser brugen af ML-træningsdata

GDPR's formålsbegrænsningsprincip (Artikel 5(1)(b)) angiver, at persondata kun må indsamles til specifikke, eksplicitte og legitime formål og ikke viderebehandles på en måde, der er uforenelig med disse formål.

Kundedata indsamlet til ordreopfyldelse blev ikke indsamlet med det formål at træne en anbefalingsmodel. Sundhedsdata indsamlet til behandling blev ikke indsamlet for at træne en model til forudsigelse af genindlæggelse. Spørgesvar indsamlet til produktfeedback blev ikke indsamlet for at træne en model til sentimentanalyse.

At bruge disse data til ML-træning kræver enten:

  1. Ekspllicit samtykke fra hver databeskyttelsesperson til ML-træningsformålet (driftsmæssigt komplekst, ofte umuligt retrospektivt)
  2. Legitimitetsvurdering, der viser, at træningsformålet er foreneligt med den oprindelige indsamling (juridisk usikkert, DPA-afhængigt)
  3. Anonymisering — fjernelse eller erstatning af PII, så dataene ikke længere er persondata under GDPR

Korrekt anonymisering er den nemmeste vej med størst juridisk sikkerhed. Udfordringen er at gøre det korrekt og konsekvent.

Problemet med ad-hoc anonymiseringsscripts

Data science-teams, der skriver engangs Python-scripts til hvert nyt datasæt, skaber sammensatte problemer:

Ufuldstændig dækning: Et script skrevet til at håndtere et datasæts skema overser PII i kolonner tilføjet siden den sidste skemaopdatering. Kliniske notater tilføjet for 6 måneder siden: ikke i regex-mønsteret. Kundens mellemnavn: regex håndterer kun FIRST_NAME og LAST_NAME mønstre.

Inkonsekvens på tværs af datasæt: Datasæt A blev anonymiseret med script_v1.py. Datasæt B blev anonymiseret med script_v3.py. Datasæt C blev anonymiseret af et andet teammedlem, der ikke vidste om script_v3.py. Det sammenlagte træningsdatasæt har tre forskellige anonymiseringsmetoder. DPO kan ikke certificere det.

Ingen revisionsspor: Scriptet kørte. Hvad ændrede det? Hvilke enheder blev fundet? I hvilke rækker? Uden behandlingsmetadata er overholdelsesdokumentation umulig. Når en DPA-revisor spørger "hvordan ved du, at dette træningsdatasæt er anonymiseret?", er "vi kørte et Python-script" ikke et tilfredsstillende svar.

Modeldrift: Regex-mønstre, der fungerede på data fra 2023, opdager ikke nye identifikatorformater introduceret i data fra 2024 (nyt SSN-format, forskellige e-mail domænemønstre, udviklende telefonnummerformater). Scripts opdaterer ikke sig selv.

Batchbehandlingsmetoden

Et datavidenskabsteam fra et sundheds-AI-firma skal anonymisere 8.000 patientjournaler, før deres amerikanske team kan få adgang til dem fra EU-kontoret (Schrems II grænseoverskridende dataoverførselsbegrænsning gælder).

Traditionel tilgang: En dataingeniør skriver et tilpasset Python-anonymiseringsscript. Tid: 2-3 dages udvikling, 1-2 dages test og gennemgang med DPO, 1 dags iteration. Total: 4-6 dage. ML-projektets tidsplan glider.

Batchbehandlingsmetode:

  1. Eksporter de 8.000 poster som CSV (standard data science format)
  2. Upload til batchbehandling
  3. Konfigurer enhedstyper: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Vælg metode: Erstat (substituerer med realistiske falske data for at bevare datastrukturen til ML-træning)
  5. Behandl: 45 minutter for 8.000 poster
  6. Download anonymiseret CSV
  7. DPO gennemgår behandlingsmetadata (enheder fundet pr. post, anvendte metoder): 2 timer
  8. DPO godkender, datadeling fortsætter

Total tid: 45 minutters behandling + 2 timers DPO-gennemgang vs. 4-6 dages engineering. ML-tidslinjen forbliver på sporet.

Erstat vs. Rediger for ML-træningsdata

Valget af anonymiseringsmetode er vigtigt for ML-nytte:

Rediger (sort streg / pladsholdererstatning): Erstatter PII med [REDACTED] eller lignende token. Det resulterende datasæt har konsistente pladsholder tokens, hvor PII var. For NLP-modeller trænet til at opdage PII skaber dette et mærket datasæt. For modeller trænet på downstream-opgaver (sentiment, klassifikation, anbefaling) forstyrrer [REDACTED] token naturlig sprogmodellering — modellen lærer, at [REDACTED] er et særligt token i stedet for at lære fra fordelingen af rigtige navne og værdier.

Erstat (realistisk syntetisk substitution): Erstatter "John Smith" med "David Chen" (et realistisk, men andet navn). E-mailen "jsmith@company.com" bliver "dchen@synthetic.com". Det resulterende datasæt opretholder naturlige sprogfordelinger — sætningsstruktur, enhedsplacering, co-forekomstmønstre — som er vigtige for NLP-modeltræning.

For ML-træningsdata specifikt er Erstat den passende metode. Modellen lærer ikke at forudsige de specifikke falske værdier (de er tilfældige substitutioner), men den lærer fra de strukturelle og kontekstuelle mønstre for, hvordan navne, e-mails og andre enheder vises i teksten.

Schrems II og grænseoverskridende dataflows

Schrems II-dommen (CJEU, 2020) annullerede EU-US Privacy Shield, hvilket skabte usikkerhed for dataoverførsler fra EU til US-servere. Den praktiske indvirkning på datavidenskab: EU-oprindelige træningsdata kan ikke sendes til US-baseret ML-infrastruktur (AWS US-East, GCP US-Central) uden tilstrækkelige overførselsbeskyttelser.

Tilstrækkelige beskyttelser inkluderer:

  • Standardkontraktbestemmelser (SCC'er) med overførselsvurdering
  • Bindende virksomhedsregler (BCR'er) for intra-gruppeoverførsler
  • Afvigelse for anonymiserede data: Korrekt anonymiserede data er ikke persondata under GDPR og er ikke underlagt overførselsbegrænsninger

For teams, der bruger US-baseret ML-infrastruktur med EU-oprindelige data, eliminerer korrekt anonymisering helt Schrems II-problemet. Det anonymiserede datasæt er ikke længere persondata — det kan overføres, opbevares og behandles på enhver infrastruktur uden krav om overførselsmekanismer.

Dokumentation til DPO-godkendelse

Når du indsender anonymiserede træningsdata til DPO til godkendelse, skal du give:

  1. Beskrivelse af kilde data: Hvad var det oprindelige datasæt, hvad var dets indsamlingformål, hvilke persondata kategorier indeholdt det?

  2. Anonymiseringskonfiguration: Hvilke enhedstyper blev opdaget og erstattet? Hvilken metode blev anvendt?

  3. Behandlingsmetadata: Antal enheder opdaget pr. post, detektionskonfidensscore, samlede behandlede poster

  4. Residualrisikovurdering: Hvad er sandsynligheden for, at en enkeltperson kan blive re-identificeret fra det anonymiserede datasæt? For Erstat-metode anonymisering med 285+ enhedstyper anvendt på struktureret tekst er denne sandsynlighed meget lav for de fleste træningsdatasæt.

  5. Tiltænkt brug: Hvilken ML-model vil blive trænet? Hvad er træningsformålet?

Behandlingsmetadata fra batchbehandling giver punkterne 2-3 automatisk. Punkterne 1, 4 og 5 kræver dataforskernes input.

Konklusion

GDPR-kompatible ML-træningsdata er opnåelige uden ad-hoc scripting, uden flere dages engineeringforsinkelser og uden at ofre datasættets nytte til modeltræning. Erstat-anonymiseringsmetoden bevarer de naturlige sprog egenskaber, der gør data nyttige til NLP-modeltræning, samtidig med at den fjerner de persondataegenskaber, der skaber GDPR-ansvar.

45 minutters batchbehandling er forskellen mellem en tidsplanforsinkende overholdelsesgennemgang og en ligetil DPO-godkendelse.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.