By · Last updated 2026-05-27

Takaisin BlogiinTekninen

GDPR-yhteensopiva ML-koulutusdata: 10 000 tietueen anonymisointi ilman koodausta

GDPR rajoittaa henkilötietojen käyttöä koneoppimiskoulutuksessa alkuperäisen keräystarkoituksen ulkopuolella. Datatiimit, jotka tukeutuvat ad hoc -Python-skripteihin, luovat vaatimustenmukaisuusaukkoja, jotka epäonnistuvat tietosuojavastaavan auditoinneissa.

May 27, 20267 min lukuaika
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-yhteensopiva ML-koulutusdata: 10 000 tietueen anonymisointi ilman koodausta

Jokainen GDPR:n piirissä olevia tietoja käsittelevä datatiimi on kirjoittanut jonkinlaisen version tästä skriptistä:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Tämä ei ole GDPR-vaatimustenmukaisuutta. Se on pelkkä sähköpostiosoitteiden korvaaminen. Tietojoukko sisältää edelleen nimiä, puhelinnumeroita, potilastunnuksia ja tusinan verran muita henkilötietoluokkia, jotka aiheuttavat vaatimustenmukaisuusongelmia.

Kuilu "anonymisoin sähköpostit" ja "tämä tietojoukko on GDPR-yhteensopiva ML-koulutukseen" välillä on suuri, merkittävä ja jatkuvasti aliarvioitu.

Miksi GDPR rajoittaa ML-koulutusdata käyttöä

GDPR:n käyttötarkoituksen rajoittamisperiaate (artikla 5(1)(b)) toteaa, että henkilötietoja voidaan kerätä määriteltyjä, nimenomaisia ja oikeutettuja tarkoituksia varten, eikä niitä saa käsitellä myöhemmin näiden tarkoitusten kanssa yhteensopimattomalla tavalla.

Tilausten täyttämiseksi kerättyä asiakastietoa ei ole kerätty suosittelumallin kouluttamista varten. Hoitoa varten kerättyä terveysdataa ei ole kerätty uudelleensairaalointia ennustavan mallin kouluttamista varten. Tuotepalautetta varten kerättyjä kyselyvastauksia ei ole kerätty sentimenttianalyysin kouluttamista varten.

Näiden tietojen käyttäminen ML-koulutukseen edellyttää joko:

  1. Nimenomainen suostumus jokaiselta rekisteröidyltä ML-koulutusta varten (operatiivisesti monimutkainen, usein mahdoton takautuvasti)
  2. Oikeutetun edun arviointi, joka osoittaa koulutuksen tarkoituksen olevan yhteensopiva alkuperäisen keräämisen kanssa (oikeudellisesti epävarma, valvontaviranomaisen harkittavissa)
  3. Anonymisointi — henkilötietojen poistaminen tai korvaaminen siten, että data ei ole enää GDPR:n mukaisia henkilötietoja

Asianmukainen anonymisointi on pienimmän vastarinnan polku ja suurin oikeudellinen varmuus. Haasteena on tehdä se oikein ja johdonmukaisesti.

Ongelma ad hoc -anonymisointiskripteissä

Datatiimit, jotka kirjoittavat kertaluonteisia Python-skriptejä jokaiselle uudelle tietojoukolle, luovat kasautuvia ongelmia:

Epätäydellinen kattavuus: Yhden tietojoukon skeemaa varten kirjoitettu skripti ohittaa PII-tiedot sarakkeissa, jotka on lisätty viimeisen skeemapäivityksen jälkeen. Kliiniset muistiinpanot -kenttä, joka lisättiin 6 kuukautta sitten: ei regex-kuviossa. Asiakkaan toinen nimi -kenttä: regex käsittelee vain ETUNIMI ja SUKUNIMI -kuvioita.

Epäjohdonmukaisuus tietojoukkojen välillä: Tietojoukko A anonymisoitiin script_v1.py:llä. Tietojoukko B anonymisoitiin script_v3.py:llä. Tietojoukko C anonymisoitiin tiimin jäsenen toimesta, joka ei tiennyt script_v3.py:stä. Yhdistetyssä koulutustietojoukossa on kolme eri anonymisointimenetelmää. Tietosuojavastaava ei voi sertifioida sitä.

Ei auditointijälkeä: Skripti ajettiin. Mitä se muutti? Mitkä yksiköt löydettiin? Mistä riveistä? Ilman käsittelymetadataa vaatimustenmukaisuuden dokumentointi on mahdotonta. Kun tietosuojavaltuutetun auditoija kysyy "miten tiedätte, että tämä koulutustietojoukko on anonymisoitu?", "ajoimme Python-skriptin" ei ole tyydyttävä vastaus.

Mallin ajautuminen: Regex-kuviot, jotka toimivat vuoden 2023 datalla, eivät tunnista vuoden 2024 dataan lisättyjä uusia tunnistusformaatteja. Skriptit eivät päivity itse.

Eräkäsittelymenetelmä

Terveysalan tekoälyyrityksen datatiimin on anonymisoitava 8 000 potilastietuetta, ennen kuin heidän Yhdysvaltain tiimi voi käyttää niitä EU-toimistosta (Schrems II:n rajat ylittävä siirtokielto pätee).

Perinteinen lähestymistapa: Datasuunnittelija kirjoittaa mukautetun Python-anonymisointiskriptin. Aika: 2–3 päivää kehitystä, 1–2 päivää testausta ja tarkistusta tietosuojavastaavan kanssa, 1 päivä iterointia. Yhteensä: 4–6 päivää. ML-projektin aikataulu viivästyy.

Eräkäsittelymenetelmä:

  1. Viedä 8 000 tietuetta CSV-muodossa (tavanomainen data science -formaatti)
  2. Ladata eräkäsittelyyn
  3. Konfiguroida yksikkötyypit: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Valita menetelmä: Korvaa (korvaa realistisilla synteettisillä tiedoilla datasarjan rakenteen säilyttämiseksi ML-koulutusta varten)
  5. Käsittely: 45 minuuttia 8 000 tietueelle
  6. Lataa anonymisoitu CSV
  7. Tietosuojavastaava tarkistaa käsittelymetadatan (löydetyt yksiköt tietuetta kohti, käytetyt menetelmät): 2 tuntia
  8. Tietosuojavastaava hyväksyy, tietojen jakaminen etenee

Kokonaisaika: 45 minuuttia käsittelyä + 2 tuntia tietosuojavastaavan tarkistusta vs. 4–6 päivää suunnittelua. ML-aikataulu pysyy oikeilla raiteilla.

Korvaa vs. Poista ML-koulutusdatassa

Anonymisointimenetelmän valinta vaikuttaa ML-hyödyllisyyteen:

Poista (musta palkki / paikkamerkin korvaus): Korvaa PII:n [REDACTED]-tokeneilla tai vastaavilla. Tuloksena oleva tietojoukko sisältää johdonmukaisia paikkamerkki-tokeneita siellä, missä PII oli. NLP-malleille, joita koulutetaan tunnistamaan PII, tämä luo merkityn tietojoukon. Muille tehtäville — sentimentti, luokittelu, suosittelu — [REDACTED]-token häiritsee luonnollisen kielen mallintamista.

Korvaa (realistinen synteettinen korvaus): Korvaa "Matti Virtanen" nimellä "Antti Korhonen" (realistinen mutta eri nimi). Sähköposti "mvirta@yritys.fi" muuttuu "akorhonen@syntheetti.fi":ksi. Tuloksena oleva tietojoukko ylläpitää luonnollisen kielen jakaumia — lauserakennetta, yksikön sijaintia, rinnakkaisesiintymiskuvioita — jotka ovat tärkeitä NLP-mallin kouluttamisessa.

ML-koulutusdatalle Korvaa on sopiva menetelmä. Malli ei opi ennustamaan tiettyjä vääriä arvoja, mutta se oppii rakenteellisista ja kontekstuaalisista kuvioista, kuinka nimet, sähköpostit ja muut yksiköt esiintyvät tekstissä.

Schrems II ja rajat ylittävät datavirrat

Schrems II -päätös (EU:n tuomioistuin, 2020) kumosi EU–Yhdysvallat Privacy Shield -sopimuksen, luoden epävarmuutta EU:sta Yhdysvaltain palvelimille siirrettäville tiedoille. Käytännön vaikutus tiedekeskeiseen työhön: EU-alkuperäistä koulutusdataa ei voida lähettää Yhdysvaltain ML-infrastruktuuriin (AWS US-East, GCP US-Central) ilman asianmukaisia siirtotakeita.

Asianmukaiset takeet sisältävät:

  • Vakiosopimuslausekkeet (SCC) siirtovaikutusarvioinnilla
  • Sitovat yrityssäännöt (BCR) konserniyhtiöiden välisille siirroille
  • Poikkeus anonymisoituun dataan: Asianmukaisesti anonymisoitu data ei ole GDPR:n mukaisia henkilötietoja, eikä se ole siirtokieltojen alainen

Yhdysvaltain ML-infrastruktuuria EU-alkuperäisellä datalla käyttäville tiimeille asianmukainen anonymisointi poistaa Schrems II -ongelman kokonaan. Anonymisoitu tietojoukko ei ole enää henkilötietoja — sitä voidaan siirtää, tallentaa ja käsitellä missä tahansa infrastruktuurissa ilman siirtomekanismivaatimuksia.

Dokumentaatio tietosuojavastaavan hyväksyntää varten

Kun toimitat anonymisoitua koulutusdataa tietosuojavastaavalle hyväksyttäväksi, toimita:

  1. Lähdetiedon kuvaus: Mikä oli alkuperäinen tietojoukko, mikä oli sen keräystarkoitus, mitä henkilötietoluokkia se sisälsi?

  2. Anonymisointikonfiguraatio: Mitkä yksikkötyypit tunnistettiin ja korvattiin? Mitä menetelmää sovellettiin?

  3. Käsittelymetadata: Tunnistettujen yksiköiden määrä tietuetta kohti, tunnistuksen luottamuspisteet, käsiteltyjen tietueiden kokonaismäärä

  4. Jäljellä olevan riskin arviointi: Mikä on todennäköisyys, että jokin henkilö voidaan tunnistaa uudelleen anonymisoidusta tietojoukosta?

  5. Aiottu käyttö: Mikä ML-malli koulutetaan? Mikä on koulutuksen tarkoitus?

Eräkäsittelyn käsittelymetadata tarjoaa kohdat 2–3 automaattisesti. Kohdat 1, 4 ja 5 vaativat datatutkijan panoksen.

Päätelmä

GDPR-yhteensopiva ML-koulutusdata on saavutettavissa ilman ad hoc -skriptejä, ilman monen päivän suunnitteluviiveitä ja ilman datasarjan hyödyllisyyden uhraamista mallin kouluttamiseksi. Korvaa-anonymisointimenetelmä säilyttää luonnollisen kielen ominaisuudet, jotka tekevät datasta hyödyllistä NLP-mallin kouluttamiseen, samalla kun se poistaa henkilötiedot, jotka luovat GDPR-vastuun.

45 minuutin eräkäsittely on ero aikataulua viivästyttävän vaatimustenmukaisuusarvioinnin ja suoraviivaisen tietosuojavastaavan hyväksynnän välillä.

Lähteet

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.