By · Last updated 2026-06-03

Takaisin BlogiinTekninen

Toistettava tietosuoja: ML-asetuspohjat

ML-harjoitusdatan anonymisoinnin on oltava johdonmukaista ja toistettavaa. Jos datatieteilijät A ja B soveltavat erilaisia entiteettityyppejä, harjoitusaineistot ovat.

June 3, 20266 min lukuaika
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Toistettava tietosuoja: miksi ML-tiimit tarvitsevat asetuspohjia — ei pelkkiä dokumentteja

Tietosuojavastaava on hyväksynyt anonymisointisuunnitelman. Se kattaa neljä kohdetta: nimet, sähköpostit, puhelinnumerot ja syntymäajat. Menetelmä on Korvaa. Suunnitelma on neljä sivua ja elää vaatimustenmukaisuuswikissä.

Kaksitoista datatieteilijää lukee sen aloituskokouksessa. Jokainen asettaa työkalun itsenäisesti. Jotkut lisäävät kansalliset tunnukset. Jotkut lisäävät IP-osoitteet. Jotkut vaihtavat Poistoon. Kolmen kuukauden kuluttua aineistot eivät ole johdonmukaisia.

CNIL tarkisti useita tekoälyyrityksiä vuonna 2024. Ongelma: henkilökohtaisten tietojen epäasianmukainen käyttö malliaineistoissa. He eivät vain kysyneet, tapahtuiko anonymisointi. He kysyivät, kuinka johdonmukaisesti se sovellettiin.

Dokumentit tarvitaan. Ne eivät yksin riitä. Korjaus on asetuspohja.

Miksi ML-malliaineistot tarvitsevat oman konfiguraation

Malliaineistojen rakentamisella on ainutlaatuisia tarpeita. Yleisellä asiakirjojen anonymisoinnilla ei ole niitä.

Korvaa, ei Poista. Mallit, joita harjoitetaan tekstillä, jossa nimet muuttuvat [REDACTED]:ksi, oppivat kyseisen tokenin nimipaikka­merkiksi. Tämä haittaa mallia. Korvaa vaihtaa "Matti Meikäläinen" henkilöksi "Juhani Virtanen". Malli näkee oikeat nimikuviot. Se ei näe maskitokenia.

Sama prosessi kaikille tietueille. Aineisto, jossa 70 % nimistä on korvattu ja 30 % on [REDACTED], lähettää sekasignaalin. Jokaisen tietueen on käytävä läpi samat vaiheet.

Sama entiteettilista. Jos aineisto sisältää terveystietoja, nimien poistaminen mutta syntymäajankohtien jättäminen joissakin tietueissa luo aukkoja. Kaikkien kahdentoista datatieteilijän on poistettava samat tyypit.

Ei liiallista poistamista. Aikaleimoja — ei syntymäaikoja — olevien päivämäärien poistaminen heikentää aineiston laatua ilman vaatimustenmukaisuushyötyä. Hyväksytty asetuspohja kertoo täsmälleen, mitkä kohteet poistaa.

Toistettava tulos. Jos aineisto on ajettava uudelleen — esimerkiksi puuttuvan entiteettityypin löytymisen jälkeen — asetuspohja antaa saman tuloksen joka kerta. Tilapäiset konfiguraatiot eivät anna.

Kahdentoista datatieteilijän ongelma

Eurooppalainen fintech ML-tiimi käyttää asiakaslokeista peräisin olevia aineistoja. Tietosuojavastaava on hyväksynyt tarkoituksen — petosten tunnistaminen — yhdellä säännöllä: kaikkien asiakkaiden nimet, sähköpostit, puhelinnumerot ja maksutyyppi­tunnukset on korvattava ennen mallin kehitystyötä.

Ilman asetuspohjia:

  • Henkilö 1 poistaa nimet, sähköpostit ja puhelinnumerot — mutta unohtaa maksutyyppi­tunnukset
  • Henkilö 2 sisällyttää maksutyyppi­tunnukset mutta käyttää Poista­a, ei Korvaata
  • Henkilö 3 noudattaa suunnitelma-asiakirjaa täsmälleen
  • Henkilöt 4–12 vaihtelevat

Yhdistetty aineisto on osittain vaatimusten­mukainen ja osittain liiaksi käsitelty. Tietosuojavastaava ei pysty sertifioimaan sitä.

Tietosuojavastaavan hyväksymällä asetuspohjalla:

  • Tietosuojavastaava luo "ML Dev — Petosten tunnistus" -pohjan täsmälleen oikeilla entiteettityypeillä ja Korvaa-menetelmällä
  • Asetuspohja menee kaikille kahdelletoista henkilölle yhdellä säännöllä: käytä tätä kaikessa aineistotyössä
  • Kukaan ei voi muuttaa asetuspohjaa ilman tietosuojavastaavan hyväksyntää

Jokainen henkilö tuottaa nyt saman tuloksen. Yhdistetty aineisto on johdonmukainen. Vuosittainen tekoälytarkastus läpäisee nollatuloksilla. Edellisenä vuonna oli kolme tulosta johdon­mukaisuus­puutteista.

GDPR ja tekoälylaki

Päivitetty 2026:lle

EU:n tekoälylaki tuli täysin voimaan elokuussa 2024. Se lisää sääntöjä tekoälyjärjestelmille, jotka käyttävät henkilötietoja mallin kehittämiseen. Korkean riskin tekoälyjärjestelmien on dokumentoitava aineistonsa, mukaan lukien mitä anonymisointi sovellettiin.

GDPR:n 5 artiklan 1 kohdan b alakohta — tarkoituksen rajoittamista koskeva sääntö — estää henkilötietojen käytön ilman selkeää oikeudellista perustaa. CNIL:n vuoden 2024 tapaukset keskittyivät tähän aukkoon: yhtä palvelua varten kerätyt tiedot käytettiin mallin kehittämiseen ilman pätevää perustetta tai anonymisointia.

Asetuspohjat auttavat täyttämään molemmat sääntökokoelmat:

  • Asetuspohjan nimi ja konfiguraatio: dokumentoitu menetelmä
  • Käsittelylokit: todiste menetelmän soveltamisesta
  • Tietosuojavastaavan hyväksyntä: kirjattu konfiguraation hyväksyntä

Tämä luo tarkastuskannan, jota molemmat lait vaativat. 10 artiklan velvoitteista yksityiskohtaisesti katso EU:n tekoälylain harjoitusdataopas.

Asetuspohjan konfiguraatio NLP-malliaineistoille

Useimmissa NLP-malliaineistoissa sisällytettävät tyypit:

  • PERSON — Korvaa samankaltaisilla nimillä
  • EMAIL_ADDRESS — Korvaa synteettisillä osoitteilla
  • PHONE_NUMBER — Korvaa synteettisillä numeroilla
  • CREDIT_CARD / IBAN — Korvaa tai Poista
  • LOCATION — Korvaa samankaltaisilla paikoilla jos sijainti on merkityksellistä; Poista jos ei
  • DATE_OF_BIRTH — Poista; ikäryhmittely tarvitaan usein

Usein jätetyt pois tyypit:

  • Yleiset päivämäärät — aikaleimoja tarvitaan ajallisiin malleihin
  • Organisaatioiden nimet — auttavat nimettyjä entiteettimalleja
  • URL-osoitteet — auttavat linkki- ja viitemalleja

ML-vastuuhenkilö ja tietosuojavastaava asettavat nämä säännöt hyväksyttyyn asetuspohjaan. Tiimin jäsenet soveltavat sitä. He eivät tee konfiguraatiovasintoja.

Asetuspohjat institutionaalisena muistina

Ennen asetuspohjia. Oikea entiteettikonfiguraatio asui kolmen datatieteilijän päässä. He olivat käyneet läpi vaatimustenmukaisuuskatselmoinnin. Kaksi lähti kolmannella neljänneksellä. Tieto lähti heidän mukanaan.

Asetuspohjan jälkeen. Konfiguraatio elää "ML Dev — Asiakastietueet v2.1" -nimessä. Versioloki osoittaa, milloin se luotiin, kuka hyväksyi sen ja mitä muuttui v2.0:sta. Uudet tiimin jäsenet käyttävät asetuspohjaa ja saavat kaiken siihen rakennetun tiedon.

Versio 2.1 lisäsi IBAN-tunnistuksen sen jälkeen, kun katselmointi löysi sen puuttuvan. Versio 2.0 hyväksyttiin helmikuussa 2025. Loki on täydellinen.

Siitä, miten käsittelylokit ja tietosuojavastaavan tarkistusprosessit toimivat, katso GDPR ML -harjoituksen anonymisointiopas.

Asetuspohjat vs. CNIL:n malli

CNIL:n vuoden 2024 tekoälytapaukset asettavat selkeän mallin. He kysyvät ei vain, mitä poistettiin, vaan miten sitä hallittiin. Jaettu asetuspohja, jossa on tietosuojavastaavan hyväksyntätietue ja käsittelylokit, vastaa tähän suoraan.

Tilapäinen konfiguraatio ei vastaa. Sama aukko esiintyy muissa EU DPA -tapauksissa, jotka noudattavat CNIL:n logiikkaa. Lisätietoa CNIL:n tekoälylähestymistavasta katso CNIL GDPR -tekoälyn vaatimustenmukaisuusopas.

Yhteenveto

Dokumentit kertovat tiimin jäsenille, mitä tehdä. Asetuspohjat tekevät sen helpoksi — ja pakolliseksi — tehdä sama tapa joka kerta.

ML-malliaineistoille johdonmukaisuus on sekä oikeudellinen tarve että tekninen tarve. Asetuspohja täyttää molemmat kerralla.

DPA:t, jotka tarkastelevat tekoälykäytäntöjä, haluavat todisteita yhtenäisestä anonymisoinnista. Asetuspohja, jota sovelletaan samalla tavalla kaikkeen aineistotyöhön, on selkein todiste, jonka voit antaa.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.