Ett Skript Er Ikke Nok

Hvert datavitenskap-team har skrevet noe slikt:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Dette erstatter e-postadresser. Det er alt det gjor. Datasettet inneholder fortsatt navn, telefonnumre og medisinske ID-er. Det vil fortsatt mislykkes i en GDPR-revisjon.

Gapet mellom "jeg anonymiserte e-postadressene" og "dette datasettet er GDPR-kompatibelt" er stort. Team undervurderer det hele tiden.

GDPR artikkel 5(1)(b) er den sentrale regelen. Den kalles formalsbegrensningsprinsippet. Personopplysninger kan bare brukes til det formalet de ble samlet inn for.

Kundeordrer ble samlet inn for ordreoppfyllelse. Ikke for a trene en anbefalingsmodell. Helseregistre ble samlet inn for behandling. Ikke for a trene en innleggelsesmodell. Undersokelsessvar ble samlet inn for produkttilbakemeldinger. Ikke for a trene en sentimentklassifiserer.

For a bruke disse postene til ML-trening trenger et team en av tre ting:

Eksplisitt samtykke fra hver person for ML-formalet -- vanskelig a fa, ofte umulig i ettertid
En legitim interessevurdering som viser at ML-bruken er forenlig -- juridisk usikker, DPA-avhengig
Anonymisering -- erstatte eller fjerne personlige detaljer slik at datasettet ikke lenger er personlig under GDPR

Riktig anonymisering gir storst juridisk sikkerhet. Utfordringen er a gjore det riktig hver gang.

Problemet med Engangs-Skript

Team som skriver et nytt Python-skript for hvert datasett skaper sammensatte problemer.

Ufullstendig dekning. Et skript bygget for ett skjema mangler nye felt. En kolonne med kliniske notater lagt til for seks maneder siden? Ikke i regexen. Et mellomnavn-felt? Skriptet handterer bare forste og etternavn-monstre.

Ingen konsistens. Datasett A ble behandlet med skript_v1. Datasett B brukte skript_v3. Datasett C ble behandlet av et annet teammedlem. Det sammenslatte treningssettet har tre forskjellige metoder brukt. En DPO kan ikke sertifisere det.

Ingen revisjonsspor. Skriptet kjorte. Hva endret det? Hvilke enheter ble funnet? Uten behandlingsposter er samsvar umulig. Nar en DPA-revisor spor "hvordan vet du at dette treningssettet er rent?", er svaret "vi kjorte et Python-skript" ikke godt nok.

Modell-drift. Regex-monstre som fungerte i 2023 mangler nye identifikatformat fra 2024. Skript oppdaterer seg ikke selv.

En Batchbehandlings-Gjennomgang

Et helse-AI-team trenger a anonymisere 8 000 pasientjournaler. Det amerikanske teamet trenger tilgang fra et EU-kontor. Schrems II gjelder -- EU-opprinnede poster kan ikke ga til amerikansk infrastruktur uten ordentlige sikkerhetstiltak.

Tradisjonell vei: En dataingenieer skriver et tilpasset skript. To til tre dager med utvikling. En til to dager med DPO-gjennomgang. En dag med iterasjon. Totalt: fire til seks dager. ML-prosjektet forskyves.

Batchbehandlingsvei:

Eksporter de 8 000 postene som CSV
Last opp til batchbehandling
Angi enhetstyper: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Velg metode: Erstatt (substituerer realistiske syntetiske verdier for a bevare struktur)
Behandle: 45 minutter for 8 000 poster
Last ned den rene CSV-filen
DPO gjennomgar behandlingsmetadata -- enheter funnet per post, metoder brukt: 2 timer
DPO godkjenner. Overforingen gjennomfores.

Total tid: 45 minutter pluss 2 timer DPO-gjennomgang. I stedet for fire til seks dager.

Se EU AI Act treningsguiden for hvordan de samme trinnene oppfyller artikkel 10-forpliktelsene.

Erstatt vs. Rediger for ML-Bruk

Anonymiseringsmetoden har betydning for modellkvaliteten.

Rediger erstatter personvernopplysninger med et token som [REDACTED]. Dette fungerer for PII-deteksjonsmodeller. For andre oppgaver -- sentiment, klassifisering, anbefaling -- skader det. Modellen laerer at [REDACTED] er et spesialt token. Den kan ikke laere fra den naturlige distribusjonen av navn og verdier.

Erstatt bytter "John Smith" med "David Chen." Det bytter "jsmith@company.com" med "dchen@synthetic.com." Strukturen forblir intakt. Enhetsplassering, samforekomstmonstre, setningsflyten -- alt bevart. Modellen laerer fra realistisk kontekst.

For ML-treningssett er Erstatt det riktige valget. Modellen laerer ikke de falske verdiene. Den laerer monstrene rundt dem. Det er det som betyr noe.

Schrems II og Grenseoverskridende Overforing

Schrems II-kjennelsen (CJEU, 2020) ugyldiggjorde EU-USA Privacy Shield. EU-opprinnede poster kan ikke ga til amerikansk ML-infrastruktur -- AWS US-East, GCP US-Central -- uten ordentlige overforingssikkerhetstiltak.

De tre hovedtiltakene er:

Standardkontraktvilkar med en overforingskonsekvensanalyse
Bindende foretaksregler for overforing innen en konserngruppe
Unntak for anonymiserte poster -- riktig anonymiserte filer er ikke lenger personlige under GDPR og er unntatt fra overforingsregler

For team som bruker amerikansk infrastruktur med EU-opprinnede sett, fjerner riktig anonymisering Schrems II-problemet. Det rene datasettet er ikke personlig. Det kan flyttes fritt.

Dette er en av de sterkeste praktiske fordelene med batchanonymisering. Det gjor mer enn a tilfredsstille GDPR. Det fjerner grenseoverskridende friksjon fullstendig.

For mer om overforingsbegrensninger, se GDPR-formalsguiden.

Hva DPO-en Skal Ha

Nar du sender inn et rent treningssett for DPO-godkjenning, inkluder disse fem elementene:

Kildebeskrivelse. Hva var det opprinnelige datasettet? Hva var innsamlingsformalet? Hvilke personlige kategorier inneholdt det?
Anonymiseringskonfigurasjon. Hvilke enhetstyper ble oppdaget og erstattet? Hvilken metode ble brukt?
Behandlingsmetadata. Enhetstelling per post, konfidensscorer, totale behandlede poster.
Restirisikovesevaluering. Hva er sjansen for at noen person kan re-identifiseres? For Erstatt-metode anonymisering med 285+ enhetstyper pa strukturert tekst er denne sannsynligheten svart lav.
Tiltenkt bruk. Hvilken modell skal trenes? Hva er treningsformalet?

Batchbehandling gir element 2 og 3 automatisk. Element 1, 4 og 5 kommer fra dataviteren.

Se anonym.legal batch-API-et for hvordan behandlingsmetadata returneres med hvert jobb.

Hva Du Vinner

GDPR-kompatible ML-sett er oppnarbare uten tilpassede skript, uten forsinkelser pa flere dager og uten a miste modellkvalitet.

Erstatt-metoden beholder de naturlige sprakegenenskapene som betyr noe for NLP-trening. Den fjerner de personlige detaljene som skaper GDPR-risiko.

45 minutter med batchbehandling er forskjellen mellom en forsinket samsvarsgjennomgang og en enkel DPO-godkjenning.

Kilder

Relaterte Artikler

Teknisk

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

Start Gratis Prøveperiode Se Funksjoner

GDPR ML Treningsdata Anonymisering

Ett Skript Er Ikke Nok

Problemet med Engangs-Skript

En Batchbehandlings-Gjennomgang

Erstatt vs. Rediger for ML-Bruk

Schrems II og Grenseoverskridende Overforing

Hva DPO-en Skal Ha

Hva Du Vinner

Kilder

Relaterte Artikler

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Klar til å beskytte dataene dine?

GDPR ML Treningsdata Anonymisering

Ett Skript Er Ikke Nok

Hvorfor GDPR Begrenser Bruk til ML-Trening

Problemet med Engangs-Skript

En Batchbehandlings-Gjennomgang

Erstatt vs. Rediger for ML-Bruk

Schrems II og Grenseoverskridende Overforing

Hva DPO-en Skal Ha

Hva Du Vinner

Kilder

Relaterte Artikler

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Klar til å beskytte dataene dine?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow