Toistettava tietosuoja: miksi ML-tiimit tarvitsevat asetuspohjia — ei pelkkiä dokumentteja

Tietosuojavastaava on hyväksynyt anonymisointisuunnitelman. Se kattaa neljä kohdetta: nimet, sähköpostit, puhelinnumerot ja syntymäajat. Menetelmä on Korvaa. Suunnitelma on neljä sivua ja elää vaatimustenmukaisuuswikissä.

Kaksitoista datatieteilijää lukee sen aloituskokouksessa. Jokainen asettaa työkalun itsenäisesti. Jotkut lisäävät kansalliset tunnukset. Jotkut lisäävät IP-osoitteet. Jotkut vaihtavat Poistoon. Kolmen kuukauden kuluttua aineistot eivät ole johdonmukaisia.

CNIL tarkisti useita tekoälyyrityksiä vuonna 2024. Ongelma: henkilökohtaisten tietojen epäasianmukainen käyttö malliaineistoissa. He eivät vain kysyneet, tapahtuiko anonymisointi. He kysyivät, kuinka johdonmukaisesti se sovellettiin.

Dokumentit tarvitaan. Ne eivät yksin riitä. Korjaus on asetuspohja.

Miksi ML-malliaineistot tarvitsevat oman konfiguraation

Malliaineistojen rakentamisella on ainutlaatuisia tarpeita. Yleisellä asiakirjojen anonymisoinnilla ei ole niitä.

Korvaa, ei Poista. Mallit, joita harjoitetaan tekstillä, jossa nimet muuttuvat [REDACTED]:ksi, oppivat kyseisen tokenin nimipaikkamerkiksi. Tämä haittaa mallia. Korvaa vaihtaa "Matti Meikäläinen" henkilöksi "Juhani Virtanen". Malli näkee oikeat nimikuviot. Se ei näe maskitokenia.

Sama prosessi kaikille tietueille. Aineisto, jossa 70 % nimistä on korvattu ja 30 % on [REDACTED], lähettää sekasignaalin. Jokaisen tietueen on käytävä läpi samat vaiheet.

Sama entiteettilista. Jos aineisto sisältää terveystietoja, nimien poistaminen mutta syntymäajankohtien jättäminen joissakin tietueissa luo aukkoja. Kaikkien kahdentoista datatieteilijän on poistettava samat tyypit.

Ei liiallista poistamista. Aikaleimoja — ei syntymäaikoja — olevien päivämäärien poistaminen heikentää aineiston laatua ilman vaatimustenmukaisuushyötyä. Hyväksytty asetuspohja kertoo täsmälleen, mitkä kohteet poistaa.

Toistettava tulos. Jos aineisto on ajettava uudelleen — esimerkiksi puuttuvan entiteettityypin löytymisen jälkeen — asetuspohja antaa saman tuloksen joka kerta. Tilapäiset konfiguraatiot eivät anna.

Kahdentoista datatieteilijän ongelma

Eurooppalainen fintech ML-tiimi käyttää asiakaslokeista peräisin olevia aineistoja. Tietosuojavastaava on hyväksynyt tarkoituksen — petosten tunnistaminen — yhdellä säännöllä: kaikkien asiakkaiden nimet, sähköpostit, puhelinnumerot ja maksutyyppitunnukset on korvattava ennen mallin kehitystyötä.

Ilman asetuspohjia:

Henkilö 1 poistaa nimet, sähköpostit ja puhelinnumerot — mutta unohtaa maksutyyppitunnukset
Henkilö 2 sisällyttää maksutyyppitunnukset mutta käyttää Poistaa, ei Korvaata
Henkilö 3 noudattaa suunnitelma-asiakirjaa täsmälleen
Henkilöt 4–12 vaihtelevat

Yhdistetty aineisto on osittain vaatimustenmukainen ja osittain liiaksi käsitelty. Tietosuojavastaava ei pysty sertifioimaan sitä.

Tietosuojavastaavan hyväksymällä asetuspohjalla:

Tietosuojavastaava luo "ML Dev — Petosten tunnistus" -pohjan täsmälleen oikeilla entiteettityypeillä ja Korvaa-menetelmällä
Asetuspohja menee kaikille kahdelletoista henkilölle yhdellä säännöllä: käytä tätä kaikessa aineistotyössä
Kukaan ei voi muuttaa asetuspohjaa ilman tietosuojavastaavan hyväksyntää

Jokainen henkilö tuottaa nyt saman tuloksen. Yhdistetty aineisto on johdonmukainen. Vuosittainen tekoälytarkastus läpäisee nollatuloksilla. Edellisenä vuonna oli kolme tulosta johdonmukaisuuspuutteista.

Päivitetty 2026:lle

EU:n tekoälylaki tuli täysin voimaan elokuussa 2024. Se lisää sääntöjä tekoälyjärjestelmille, jotka käyttävät henkilötietoja mallin kehittämiseen. Korkean riskin tekoälyjärjestelmien on dokumentoitava aineistonsa, mukaan lukien mitä anonymisointi sovellettiin.

GDPR:n 5 artiklan 1 kohdan b alakohta — tarkoituksen rajoittamista koskeva sääntö — estää henkilötietojen käytön ilman selkeää oikeudellista perustaa. CNIL:n vuoden 2024 tapaukset keskittyivät tähän aukkoon: yhtä palvelua varten kerätyt tiedot käytettiin mallin kehittämiseen ilman pätevää perustetta tai anonymisointia.

Asetuspohjat auttavat täyttämään molemmat sääntökokoelmat:

Asetuspohjan nimi ja konfiguraatio: dokumentoitu menetelmä
Käsittelylokit: todiste menetelmän soveltamisesta
Tietosuojavastaavan hyväksyntä: kirjattu konfiguraation hyväksyntä

Tämä luo tarkastuskannan, jota molemmat lait vaativat. 10 artiklan velvoitteista yksityiskohtaisesti katso EU:n tekoälylain harjoitusdataopas.

Asetuspohjan konfiguraatio NLP-malliaineistoille

Useimmissa NLP-malliaineistoissa sisällytettävät tyypit:

PERSON — Korvaa samankaltaisilla nimillä
EMAIL_ADDRESS — Korvaa synteettisillä osoitteilla
PHONE_NUMBER — Korvaa synteettisillä numeroilla
CREDIT_CARD / IBAN — Korvaa tai Poista
LOCATION — Korvaa samankaltaisilla paikoilla jos sijainti on merkityksellistä; Poista jos ei
DATE_OF_BIRTH — Poista; ikäryhmittely tarvitaan usein

Usein jätetyt pois tyypit:

Yleiset päivämäärät — aikaleimoja tarvitaan ajallisiin malleihin
Organisaatioiden nimet — auttavat nimettyjä entiteettimalleja
URL-osoitteet — auttavat linkki- ja viitemalleja

ML-vastuuhenkilö ja tietosuojavastaava asettavat nämä säännöt hyväksyttyyn asetuspohjaan. Tiimin jäsenet soveltavat sitä. He eivät tee konfiguraatiovasintoja.

Asetuspohjat institutionaalisena muistina

Ennen asetuspohjia. Oikea entiteettikonfiguraatio asui kolmen datatieteilijän päässä. He olivat käyneet läpi vaatimustenmukaisuuskatselmoinnin. Kaksi lähti kolmannella neljänneksellä. Tieto lähti heidän mukanaan.

Asetuspohjan jälkeen. Konfiguraatio elää "ML Dev — Asiakastietueet v2.1" -nimessä. Versioloki osoittaa, milloin se luotiin, kuka hyväksyi sen ja mitä muuttui v2.0:sta. Uudet tiimin jäsenet käyttävät asetuspohjaa ja saavat kaiken siihen rakennetun tiedon.

Versio 2.1 lisäsi IBAN-tunnistuksen sen jälkeen, kun katselmointi löysi sen puuttuvan. Versio 2.0 hyväksyttiin helmikuussa 2025. Loki on täydellinen.

Siitä, miten käsittelylokit ja tietosuojavastaavan tarkistusprosessit toimivat, katso GDPR ML -harjoituksen anonymisointiopas.

Asetuspohjat vs. CNIL:n malli

CNIL:n vuoden 2024 tekoälytapaukset asettavat selkeän mallin. He kysyvät ei vain, mitä poistettiin, vaan miten sitä hallittiin. Jaettu asetuspohja, jossa on tietosuojavastaavan hyväksyntätietue ja käsittelylokit, vastaa tähän suoraan.

Tilapäinen konfiguraatio ei vastaa. Sama aukko esiintyy muissa EU DPA -tapauksissa, jotka noudattavat CNIL:n logiikkaa. Lisätietoa CNIL:n tekoälylähestymistavasta katso CNIL GDPR -tekoälyn vaatimustenmukaisuusopas.

Yhteenveto

Dokumentit kertovat tiimin jäsenille, mitä tehdä. Asetuspohjat tekevät sen helpoksi — ja pakolliseksi — tehdä sama tapa joka kerta.

ML-malliaineistoille johdonmukaisuus on sekä oikeudellinen tarve että tekninen tarve. Asetuspohja täyttää molemmat kerralla.

DPA:t, jotka tarkastelevat tekoälykäytäntöjä, haluavat todisteita yhtenäisestä anonymisoinnista. Asetuspohja, jota sovelletaan samalla tavalla kaikkeen aineistotyöhön, on selkein todiste, jonka voit antaa.

Lähteet

Liittyvät Artikkelit

Tekninen

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

Toistettava tietosuoja: ML-asetuspohjat

Toistettava tietosuoja: miksi ML-tiimit tarvitsevat asetuspohjia — ei pelkkiä dokumentteja

Miksi ML-malliaineistot tarvitsevat oman konfiguraation

Kahdentoista datatieteilijän ongelma

Asetuspohjan konfiguraatio NLP-malliaineistoille

Asetuspohjat institutionaalisena muistina

Asetuspohjat vs. CNIL:n malli

Yhteenveto

Lähteet

Liittyvät Artikkelit

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Valmiina suojaamaan tietojasi?

Toistettava tietosuoja: ML-asetuspohjat

Toistettava tietosuoja: miksi ML-tiimit tarvitsevat asetuspohjia — ei pelkkiä dokumentteja

Miksi ML-malliaineistot tarvitsevat oman konfiguraation

Kahdentoista datatieteilijän ongelma

GDPR ja tekoälylaki

Asetuspohjan konfiguraatio NLP-malliaineistoille

Asetuspohjat institutionaalisena muistina

Asetuspohjat vs. CNIL:n malli

Yhteenveto

Lähteet

Liittyvät Artikkelit

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow