Takaisin BlogiinTekninen

GDPR-yhteensopiva ML-koulutusdata: 10 000 tietueen...

GDPR rajoittaa henkilötietojen käyttöä ML-koulutuksessa alkuperäisen keräystarkoituksen lisäksi.

April 20, 20267 min lukuaika
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-yhteensopiva ML-koulutusdata: 10 000 tietueen anonymisointi ilman koodin kirjoittamista

Jokainen data-analytiikkatiimi, joka käsittelee GDPR:n alaisia tietoja, on kirjoittanut jonkin version tästä skriptistä:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Tämä ei ole GDPR-yhteensopivuutta. Se on sähköpostiosoitteen korvaaminen. Datasetti sisältää edelleen nimiä, puhelinnumeroita, lääkärintodistusten ID-numeroita ja kymmeniä muita PII-kategorioita, jotka aiheuttavat yhteensopivuusongelmia.

Kuilu "anonymoin sähköpostit" ja "tämä datasetti on GDPR-yhteensopiva ML-koulutukseen" on suuri, merkittävä ja säännöllisesti aliarvioitu.

Miksi GDPR rajoittaa ML-koulutusdatankäyttöä

GDPR:n tarkoitusrajoitusperiaate (artikla 5(1)(b)) toteaa, että henkilötietoja voidaan kerätä määriteltyjä, selkeitä ja laillisia tarkoituksia varten, eikä niitä saa käsitellä edelleen tavalla, joka on yhteensopimaton näiden tarkoitusten kanssa.

Asiakastietoja, jotka on kerätty tilausten täyttämistä varten, ei ole kerätty suositusmallin kouluttamista varten. Hoitotietoja, jotka on kerätty hoitoa varten, ei ole kerätty lukumäärän ennustemallin kouluttamista varten. Kyselyvastauksia, jotka on kerätty tuotekehitystä varten, ei ole kerätty mielipideanalyysimallin kouluttamista varten.

Tämän datan käyttäminen ML-koulutukseen vaatii joko:

  1. Selkeää suostumusta jokaiselta tietoaineistolta ML-koulutustarkoitusta varten (toiminnallisesti monimutkainen, usein mahdoton jälkikäteen)
  2. Laillisen edun arviointi, joka osoittaa, että koulutustarkoitus on yhteensopiva alkuperäisen keräyksen kanssa (laillisesti epävarma, DPA-riippuvainen)
  3. Anonymisointi — PII:n poistaminen tai korvaaminen siten, että data ei enää ole henkilötietoa GDPR:n mukaan

Oikea anonymisointi on vähiten vastustava ja suurin oikeudellinen varmuus. Haasteena on tehdä se oikein ja johdonmukaisesti.

Ad-hoc-anonymisointiskriptien ongelma

Data-analytiikkatiimit, jotka kirjoittavat kertaluonteisia Python-skriptejä jokaiselle uudelle datasetille, luovat kumuloituvia ongelmia:

Puuttuva kattavuus: Skripti, joka on kirjoitettu yhden datasetin skeeman käsittelemiseksi, jättää huomiotta PII:t, jotka on lisätty viimeisimmän skeemapäivityksen jälkeen. Klinikkamuistiot, jotka on lisätty 6 kuukautta sitten: eivät ole regex-mallissa. Asiakkaan toinen etunimi: regex käsittelee vain FIRST_NAME ja LAST_NAME -malleja.

Epäjohdonmukaisuus datasetien välillä: Datasetti A anonymisoitiin script_v1.py:llä. Datasetti B anonymisoitiin script_v3.py:llä. Datasetti C anonymisoitiin eri tiimin jäsenen toimesta, joka ei tiennyt script_v3.py:stä. Yhdistetty koulutusdatasetti sisältää kolme erilaista anonymisointimenetelmää. DPO ei voi sertifioida sitä.

Ei auditointijälkeä: Skripti suoritettiin. Mitä se muutti? Mitkä entiteetit löydettiin? Missä riveissä? Ilman käsittelymetatietoja yhteensopivuusasiakirjat ovat mahdottomia. Kun DPA-auditoija kysyy "kuinka tiedät, että tämä koulutusdatasetti on anonymisoitu?", "ajoimme Python-skriptiä" ei ole tyydyttävä vastaus.

Mallin siirtyminen: Regex-mallit, jotka toimivat vuoden 2023 datalla, eivät havaitse uusia tunnistusmuotoja, jotka on otettu käyttöön vuoden 2024 datassa (uusi SSN-muoto, erilaiset sähköpostidomain-mallit, kehittyvät puhelinnumeromuodot). Skriptit eivät päivitä itseään.

Eräkäsittelymenetelmä

Terveydenhuollon AI-yrityksen data-analytiikkatiimin on anonymisoitava 8 000 potilastietuetta ennen kuin heidän Yhdysvaltojen tiiminsä voi käyttää niitä EU-toimistosta (Schrems II:n rajat ylittävä tietojen siirto -rajoitus koskee).

Perinteinen lähestymistapa: Data-insinööri kirjoittaa mukautetun Python-anonymisointiskriptin. Aika: 2-3 päivää kehitystä, 1-2 päivää testausta ja tarkastusta DPO:n kanssa, 1 päivä iterointia. Yhteensä: 4-6 päivää. ML-projektin aikaraja viivästyy.

Eräkäsittelymenetelmä:

  1. Vie 8 000 tietuetta CSV-muodossa (standardi data-analytiikan muoto)
  2. Lataa eräkäsittelyyn
  3. Määritä entiteettityypit: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Valitse menetelmä: Korvata (korvataan realistisilla vale-datoilla, jotta datasetin rakenne säilyy ML-koulutusta varten)
  5. Käsittele: 45 minuuttia 8 000 tietueen kohdalla
  6. Lataa anonymisoitu CSV
  7. DPO tarkistaa käsittelymetatiedot (löydetyt entiteetit per tietue, sovelletut menetelmät): 2 tuntia
  8. DPO hyväksyy, tietojen jakaminen jatkuu

Kokonaisaika: 45 minuutin käsittely + 2 tuntia DPO:n tarkastusta vs. 4-6 päivän insinöörityö. ML-aikataulu pysyy aikarajassa.

Korvata vs. Poistaa ML-koulutusdatassa

Anonymisointimenetelmän valinta on tärkeä ML-hyödyllisyyden kannalta:

Poistaa (musta palkki / paikkamerkin korvaaminen): Korvataan PII [POISTETTU] tai vastaavalla tokenilla. Tuloksena oleva datasetti sisältää johdonmukaisia paikkamerkki-tokeneita siellä, missä PII oli. NLP-malleille, jotka on koulutettu havaitsemaan PII, tämä luo merkittyjä datasettiä. Alatehtäviin koulutettaville malleille (mielipide, luokittelu, suositus) [POISTETTU] token häiritsee luonnollisen kielen mallintamista — malli oppii, että [POISTETTU] on erityinen token sen sijaan, että oppisi oikeiden nimien ja arvojen jakautumisesta.

Korvata (realistinen synteettinen korvaaminen): Korvataan "John Smith" nimellä "David Chen" (realistinen mutta eri nimi). Sähköposti "jsmith@company.com" muuttuu "dchen@synthetic.com". Tuloksena oleva datasetti säilyttää luonnollisen kielen jakautumisen — lauseen rakenne, entiteettien sijoittelu, esiintymismallit — jotka ovat tärkeitä NLP-mallin koulutuksessa.

Erityisesti ML-koulutusdatassa Korvata on oikea menetelmä. Malli ei opi ennustamaan tiettyjä vale-arvoja (ne ovat satunnaisia korvauksia), mutta se oppii rakenteellisista ja kontekstuaalisista malleista siitä, miten nimet, sähköpostit ja muut entiteetit esiintyvät tekstissä.

Schrems II ja rajat ylittävät tietovirrat

Schrems II -päätös (CJEU, 2020) kumosi EU:n ja Yhdysvaltojen tietosuojakilven, mikä loi epävarmuutta tietojen siirroissa EU:sta Yhdysvaltojen palvelimille. Käytännön vaikutus data-analytiikkaan: EU:sta peräisin olevaa koulutusdataa ei voida lähettää Yhdysvalloissa sijaitsevaan ML-infrastruktuuriin (AWS US-East, GCP US-Central) ilman riittäviä siirtoturvatoimia.

Riittävät turvatoimet sisältävät:

  • Standardisopimusehdot (SCC) siirtoarvioinnilla
  • Sitovat yrityssäännöt (BCR) sisäryhmän siirroille
  • Poikkeus anonymisoiduille tiedoille: Oikein anonymisoitu data ei ole henkilötietoa GDPR:n mukaan eikä se ole siirto- rajoitusten alainen

Tiimeille, jotka käyttävät Yhdysvalloissa sijaitsevaa ML-infrastruktuuria EU:sta peräisin olevalla datalla, oikea anonymisointi poistaa kokonaan Schrems II -ongelman. Anonymisoitu datasetti ei enää ole henkilötietoa — sitä voidaan siirtää, tallentaa ja käsitellä missä tahansa infrastruktuurissa ilman siirtomekanismin vaatimuksia.

Dokumentaatio DPO:n hyväksyntää varten

Kun toimitat anonymisoitua koulutusdataa DPO:lle hyväksyttäväksi, tarjoa:

  1. Lähdedatan kuvaus: Mikä oli alkuperäinen datasetti, mikä oli sen keräystarkoitus, mitä henkilötietokategorioita se sisälsi?

  2. Anonymisointikonfiguraatio: Mitkä entiteettityypit havaittiin ja korvattiin? Mitä menetelmää sovellettiin?

  3. Käsittelymetatiedot: Havaittujen entiteettien määrä per tietue, havaitsemisen luottamusarviot, käsiteltyjen tietueiden kokonaismäärä

  4. Jäännösriskin arviointi: Mikä on todennäköisyys, että yksittäinen henkilö voitaisiin tunnistaa uudelleen anonymisoidusta datasetistä? Korvata-menetelmällä, jossa on käytetty yli 285 entiteettityyppiä rakenteellisessa tekstissä, tämä todennäköisyys on erittäin alhainen useimmille koulutusdatasetille.

  5. Tarkoitettu käyttö: Mikä ML-malli koulutetaan? Mikä on koulutustarkoitus?

Eräkäsittelyn käsittelymetatiedot tarjoavat automaattisesti kohdat 2-3. Kohdat 1, 4 ja 5 vaativat data-analyytikon panosta.

Yhteenveto

GDPR-yhteensopivaa ML-koulutusdataa on mahdollista saavuttaa ilman ad-hoc-skriptejä, ilman monipäiväisiä insinööriviivästyksiä ja ilman datasetin hyödyllisyyden uhraamista mallin koulutuksessa. Korvata-anonymisointimenetelmä säilyttää luonnollisen kielen ominaisuudet, jotka tekevät datasta hyödyllistä NLP-mallin koulutuksessa, samalla kun se poistaa henkilötietojen ominaisuudet, jotka luovat GDPR-vastuuta.

45 minuutin eräkäsittely on ero aikarajaa viivästyttävän yhteensopivuustarkastuksen ja suoraviivaisen DPO:n hyväksynnän välillä.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.