Toistettava tietosuoja: miksi ML-tiimit tarvitsevat asetuspohjia — ei pelkkiä dokumentteja
Tietosuojavastaava on hyväksynyt anonymisointisuunnitelman. Se kattaa neljä kohdetta: nimet, sähköpostit, puhelinnumerot ja syntymäajat. Menetelmä on Korvaa. Suunnitelma on neljä sivua ja elää vaatimustenmukaisuuswikissä.
Kaksitoista datatieteilijää lukee sen aloituskokouksessa. Jokainen asettaa työkalun itsenäisesti. Jotkut lisäävät kansalliset tunnukset. Jotkut lisäävät IP-osoitteet. Jotkut vaihtavat Poistoon. Kolmen kuukauden kuluttua aineistot eivät ole johdonmukaisia.
CNIL tarkisti useita tekoälyyrityksiä vuonna 2024. Ongelma: henkilökohtaisten tietojen epäasianmukainen käyttö malliaineistoissa. He eivät vain kysyneet, tapahtuiko anonymisointi. He kysyivät, kuinka johdonmukaisesti se sovellettiin.
Dokumentit tarvitaan. Ne eivät yksin riitä. Korjaus on asetuspohja.
Miksi ML-malliaineistot tarvitsevat oman konfiguraation
Malliaineistojen rakentamisella on ainutlaatuisia tarpeita. Yleisellä asiakirjojen anonymisoinnilla ei ole niitä.
Korvaa, ei Poista. Mallit, joita harjoitetaan tekstillä, jossa nimet muuttuvat [REDACTED]:ksi, oppivat kyseisen tokenin nimipaikkamerkiksi. Tämä haittaa mallia. Korvaa vaihtaa "Matti Meikäläinen" henkilöksi "Juhani Virtanen". Malli näkee oikeat nimikuviot. Se ei näe maskitokenia.
Sama prosessi kaikille tietueille. Aineisto, jossa 70 % nimistä on korvattu ja 30 % on [REDACTED], lähettää sekasignaalin. Jokaisen tietueen on käytävä läpi samat vaiheet.
Sama entiteettilista. Jos aineisto sisältää terveystietoja, nimien poistaminen mutta syntymäajankohtien jättäminen joissakin tietueissa luo aukkoja. Kaikkien kahdentoista datatieteilijän on poistettava samat tyypit.
Ei liiallista poistamista. Aikaleimoja — ei syntymäaikoja — olevien päivämäärien poistaminen heikentää aineiston laatua ilman vaatimustenmukaisuushyötyä. Hyväksytty asetuspohja kertoo täsmälleen, mitkä kohteet poistaa.
Toistettava tulos. Jos aineisto on ajettava uudelleen — esimerkiksi puuttuvan entiteettityypin löytymisen jälkeen — asetuspohja antaa saman tuloksen joka kerta. Tilapäiset konfiguraatiot eivät anna.
Kahdentoista datatieteilijän ongelma
Eurooppalainen fintech ML-tiimi käyttää asiakaslokeista peräisin olevia aineistoja. Tietosuojavastaava on hyväksynyt tarkoituksen — petosten tunnistaminen — yhdellä säännöllä: kaikkien asiakkaiden nimet, sähköpostit, puhelinnumerot ja maksutyyppitunnukset on korvattava ennen mallin kehitystyötä.
Ilman asetuspohjia:
- Henkilö 1 poistaa nimet, sähköpostit ja puhelinnumerot — mutta unohtaa maksutyyppitunnukset
- Henkilö 2 sisällyttää maksutyyppitunnukset mutta käyttää Poistaa, ei Korvaata
- Henkilö 3 noudattaa suunnitelma-asiakirjaa täsmälleen
- Henkilöt 4–12 vaihtelevat
Yhdistetty aineisto on osittain vaatimustenmukainen ja osittain liiaksi käsitelty. Tietosuojavastaava ei pysty sertifioimaan sitä.
Tietosuojavastaavan hyväksymällä asetuspohjalla:
- Tietosuojavastaava luo "ML Dev — Petosten tunnistus" -pohjan täsmälleen oikeilla entiteettityypeillä ja Korvaa-menetelmällä
- Asetuspohja menee kaikille kahdelletoista henkilölle yhdellä säännöllä: käytä tätä kaikessa aineistotyössä
- Kukaan ei voi muuttaa asetuspohjaa ilman tietosuojavastaavan hyväksyntää
Jokainen henkilö tuottaa nyt saman tuloksen. Yhdistetty aineisto on johdonmukainen. Vuosittainen tekoälytarkastus läpäisee nollatuloksilla. Edellisenä vuonna oli kolme tulosta johdonmukaisuuspuutteista.
GDPR ja tekoälylaki
Päivitetty 2026:lle
EU:n tekoälylaki tuli täysin voimaan elokuussa 2024. Se lisää sääntöjä tekoälyjärjestelmille, jotka käyttävät henkilötietoja mallin kehittämiseen. Korkean riskin tekoälyjärjestelmien on dokumentoitava aineistonsa, mukaan lukien mitä anonymisointi sovellettiin.
GDPR:n 5 artiklan 1 kohdan b alakohta — tarkoituksen rajoittamista koskeva sääntö — estää henkilötietojen käytön ilman selkeää oikeudellista perustaa. CNIL:n vuoden 2024 tapaukset keskittyivät tähän aukkoon: yhtä palvelua varten kerätyt tiedot käytettiin mallin kehittämiseen ilman pätevää perustetta tai anonymisointia.
Asetuspohjat auttavat täyttämään molemmat sääntökokoelmat:
- Asetuspohjan nimi ja konfiguraatio: dokumentoitu menetelmä
- Käsittelylokit: todiste menetelmän soveltamisesta
- Tietosuojavastaavan hyväksyntä: kirjattu konfiguraation hyväksyntä
Tämä luo tarkastuskannan, jota molemmat lait vaativat. 10 artiklan velvoitteista yksityiskohtaisesti katso EU:n tekoälylain harjoitusdataopas.
Asetuspohjan konfiguraatio NLP-malliaineistoille
Useimmissa NLP-malliaineistoissa sisällytettävät tyypit:
- PERSON — Korvaa samankaltaisilla nimillä
- EMAIL_ADDRESS — Korvaa synteettisillä osoitteilla
- PHONE_NUMBER — Korvaa synteettisillä numeroilla
- CREDIT_CARD / IBAN — Korvaa tai Poista
- LOCATION — Korvaa samankaltaisilla paikoilla jos sijainti on merkityksellistä; Poista jos ei
- DATE_OF_BIRTH — Poista; ikäryhmittely tarvitaan usein
Usein jätetyt pois tyypit:
- Yleiset päivämäärät — aikaleimoja tarvitaan ajallisiin malleihin
- Organisaatioiden nimet — auttavat nimettyjä entiteettimalleja
- URL-osoitteet — auttavat linkki- ja viitemalleja
ML-vastuuhenkilö ja tietosuojavastaava asettavat nämä säännöt hyväksyttyyn asetuspohjaan. Tiimin jäsenet soveltavat sitä. He eivät tee konfiguraatiovasintoja.
Asetuspohjat institutionaalisena muistina
Ennen asetuspohjia. Oikea entiteettikonfiguraatio asui kolmen datatieteilijän päässä. He olivat käyneet läpi vaatimustenmukaisuuskatselmoinnin. Kaksi lähti kolmannella neljänneksellä. Tieto lähti heidän mukanaan.
Asetuspohjan jälkeen. Konfiguraatio elää "ML Dev — Asiakastietueet v2.1" -nimessä. Versioloki osoittaa, milloin se luotiin, kuka hyväksyi sen ja mitä muuttui v2.0:sta. Uudet tiimin jäsenet käyttävät asetuspohjaa ja saavat kaiken siihen rakennetun tiedon.
Versio 2.1 lisäsi IBAN-tunnistuksen sen jälkeen, kun katselmointi löysi sen puuttuvan. Versio 2.0 hyväksyttiin helmikuussa 2025. Loki on täydellinen.
Siitä, miten käsittelylokit ja tietosuojavastaavan tarkistusprosessit toimivat, katso GDPR ML -harjoituksen anonymisointiopas.
Asetuspohjat vs. CNIL:n malli
CNIL:n vuoden 2024 tekoälytapaukset asettavat selkeän mallin. He kysyvät ei vain, mitä poistettiin, vaan miten sitä hallittiin. Jaettu asetuspohja, jossa on tietosuojavastaavan hyväksyntätietue ja käsittelylokit, vastaa tähän suoraan.
Tilapäinen konfiguraatio ei vastaa. Sama aukko esiintyy muissa EU DPA -tapauksissa, jotka noudattavat CNIL:n logiikkaa. Lisätietoa CNIL:n tekoälylähestymistavasta katso CNIL GDPR -tekoälyn vaatimustenmukaisuusopas.
Yhteenveto
Dokumentit kertovat tiimin jäsenille, mitä tehdä. Asetuspohjat tekevät sen helpoksi — ja pakolliseksi — tehdä sama tapa joka kerta.
ML-malliaineistoille johdonmukaisuus on sekä oikeudellinen tarve että tekninen tarve. Asetuspohja täyttää molemmat kerralla.
DPA:t, jotka tarkastelevat tekoälykäytäntöjä, haluavat todisteita yhtenäisestä anonymisoinnista. Asetuspohja, jota sovelletaan samalla tavalla kaikkeen aineistotyöhön, on selkein todiste, jonka voit antaa.