By · Last updated 2026-05-27

Tagasi BlogisseTehniline

GDPR-nõuetele vastav ML treeningandmete anonüümiseerimine

GDPR piirab isikuandmete kasutamist ML-treeninguks, kui see erineb algsest kogumise eesmärgist. Ad hoc Pythoni skriptidele toetuvad andmeteadlased loovad lünki, mida DPO auditid avastavad.

May 27, 20267 min lugemist
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Üks skript ei piisa

Igal andmeteaduse meeskonnal on kirjutatud midagi sellist:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

See asendab e-posti aadressid. Ainult selle. Andmestik sisaldab ikka nimesid, telefoninumbreid ja meditsiinilisi ID-sid. See ei läbi GDPR-auditit.

Lõhe "anonüümiseerisin e-kirjad" ja "see andmestik vastab GDPR-ile" vahel on suur. Meeskonnad alahindavad seda pidevalt.

Miks GDPR piirab ML-treeningut

GDPR artikkel 5(1)(b) on põhireegel. Seda nimetatakse eesmärgi piirangu põhimõtteks. Isikuandmeid võib kasutada ainult selleks eesmärgiks, milleks need koguti.

Kliendi tellimused koguti tellimuse täitmiseks. Mitte soovitusemudeli treenimiseks. Tervisearvestused koguti ravi jaoks. Mitte haiglasse lubamise mudeli treenimiseks. Uuringu vastused koguti tootetagasiside jaoks. Mitte sentimendiklassifikaatori treenimiseks.

Nende andmete kasutamiseks ML-treeninguks vajab meeskond ühte kolmest asjast:

  1. Iga isiku selgesõnaline nõusolek ML-eesmärgil - raske saada, sageli tagasiulatuvalt võimatu
  2. Õigustatud huvi hinnang, mis näitab, et ML-kasutus on ühilduv - juriidiliselt ebakindel, sõltub andmekaitseametist
  3. Anonüümiseerimine - isikuandmete asendamine või eemaldamine nii, et andmestik ei ole GDPR all enam isiklik

Korralik anonüümiseerimine annab kõige suurema õigusliku kindluse. Väljakutse on teha seda iga kord õigesti.

Ühekordse skriptiga seotud probleemid

Meeskonnad, kes kirjutavad iga andmestiku jaoks uue Pythoni skripti, tekitavad kuhjuvaid probleeme.

Puudulik katvus. Ühe skeemi jaoks ehitatud skript jätab uued väljad vahele. Kliiniline märkmete veerg, mis lisati kuus kuud tagasi? Pole regexis. Keskmise nime väli? Skript käsitleb ainult ees- ja perekonnanime mustreid.

Järjepidevuse puudumine. Andmestik A töödeldi skript_v1-ga. Andmestik B kasutas skript_v3. Andmestik C töödeldi teise meeskonnaliikme poolt. Ühendatud treeningkomplektil on rakendatud kolm erinevat meetodit. DPO ei saa seda sertifitseerida.

Auditijälg puudub. Skript käivitus. Mida see muutis? Milliseid olemeid leiti? Ilma töötlemisandmeteta on vastavus võimatu. Kui andmekaitseameti audiitor küsib "kuidas te teate, et see treeningkomplekt on puhas?", ei piisa vastusest "käivitasime Pythoni skripti".

Mudeli kõikumine. Regex-mustrid, mis toimisid 2023. aastal, jätavad vahele 2024. aasta uued identifikaatorivormingud. Skriptid ei uuendu ise.

Pakktöötlemise läbivaatusnäide

Tervishoiu AI-meeskond peab anonüümiseerima 8000 patsiendi andmet. USA meeskond vajab juurdepääsu EL-i kontorist. Schrems II kehtib - EL-i päritolu andmeid ei saa saata USA infrastruktuuri nõuetekohaste kaitsemeetmeteta.

Traditsiooniline tee: Andmeinsener kirjutab kohandatud skripti. Kaks kuni kolm päeva arendust. Üks kuni kaks päeva DPO ülevaatust. Üks päev iteratsiooni. Kokku: neli kuni kuus päeva. ML-projekt nihkub.

Pakktöötlemise tee:

  1. Ekspordi 8000 kirjet CSV-na
  2. Laadi üles pakktöötlusse
  3. Sea olemite tüübid: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Vali meetod: Asenda (asendab realistlike sünteetiliste väärtustega, säilitades struktuuri)
  5. Töötlemine: 45 minutit 8000 kirje jaoks
  6. Laadi alla puhas CSV
  7. DPO vaatab üle töötlemise metaandmed - leitud olemid kirje kohta, rakendatud meetodid: 2 tundi
  8. DPO kinnitab. Ülekanne toimub.

Koguaeg: 45 minutit pluss 2 tundi DPO ülevaatust. Nelja kuni kuue päeva asemel.

Vaata EL AI akti treeningjuhendit, kuidas samad sammud rahuldavad artikli 10 kohustusi.

Asenda vs. Redakteeri ML-kasutuse jaoks

Anonüümiseerimismeetod on mudeli kvaliteedi jaoks oluline.

Redakteerimine asendab isikuandmed märgiga nagu [REDACTED]. See sobib isikuandmete tuvastamise mudelitele. Muude ülesannete jaoks - sentimentanalüüs, klassifitseerimine, soovitused - kahjustab see mudeli kvaliteeti. Mudel õpib, et [REDACTED] on erimärk. See ei suuda õppida nimede ja väärtuste loomulikust jaotusest.

Asendamine vahetab "Jaan Tamm" välja "David Chen" vastu. Vahetab "jsmith@company.com" välja "dchen@synthetic.com" vastu. Struktuur jääb puutumatuks. Olemite paigutus, kaassageduse mustrid, lausevoog - kõik säilib. Mudel õpib realistlikust kontekstist.

ML-treeningkomplektide jaoks on asendamine õige valik. Mudel ei õpi võltsitud väärtusi. See õpib nende ümbritsevaid mustreid. See on see, mis loeb.

Schrems II ja piiriülesed ülekanded

Schrems II otsus (Euroopa Kohus, 2020) tühistas EL-USA Privacy Shieldi. EL-i päritolu andmeid ei saa saata USA ML-infrastruktuuri - AWS US-East, GCP US-Central - nõuetekohaste ülekandmise kaitsemeetmeteta.

Kolm peamist kaitsemeedet on:

  • Standardsed lepingutingimused koos ülekande mõjuhinnanguga
  • Siduvad ettevõtte reeglid ettevõttegrupi siseste ülekannete jaoks
  • Erand anonüümiseeritud andmetele - nõuetekohaselt anonüümiseeritud failid ei ole GDPR all enam isiklikud ja on ülekandereeglitest vabastatud

Ameerika Ühendriikide infrastruktuuri kasutavatele meeskondadele EL-i päritolu andmestike puhul eemaldab nõuetekohane anonüümiseerimine Schrems II probleemi. Puhas andmestik ei ole isiklik. See võib vabalt liikuda.

See on pakktöötluse üks tugevamaid praktilisi eeliseid. See ei rahulda ainult GDPR-i. See eemaldab piiriülese hõõrdumise täielikult.

Lisateavet ülekandepiirangute kohta vaata GDPR eesmärgi piirangu juhendist.

Mida anda DPO-le

Puhta treeningkomplekti DPO kinnitamiseks esitamisel lisa need viis elementi:

  1. Allika kirjeldus. Mis oli algne andmestik? Mis oli kogumise eesmärk? Milliseid isiklikke kategooriaid see sisaldas?
  2. Anonüümiseerimise konfiguratsioon. Milliseid olemite tüüpe tuvastati ja asendati? Millist meetodit rakendati?
  3. Töötlemise metaandmed. Olemite arv kirje kohta, usaldusskoorid, töödeldud kirjete koguarv.
  4. Jääkriski hinnang. Kui suur on tõenäosus, et mõnda isikut saab taasidentifitseerida? Asendamismeetodi anonüümiseerimiseks 285+ olemitüübiga struktureeritud teksti puhul on see tõenäosus väga väike.
  5. Kavandatav kasutus. Millist mudelit treenitakse? Mis on treeningu eesmärk?

Pakktöötlus pakub punkte 2 ja 3 automaatselt. Punktid 1, 4 ja 5 pärinevad andmeteadlaselt.

Vaata anonym.legal pakk-API-t, kuidas töötlemise metaandmed iga töö kohta tagastatakse.

Mida sa saad

GDPR-nõuetele vastavad ML-komplektid on saavutatavad ilma kohandatud skriptideta, ilma mitme päevase viivituseta ja ilma mudeli kvaliteeti kaotamata.

Asendamismeetod säilitab loomulikud keeleomadused, mis on NLP-treeningu jaoks olulised. See eemaldab isikuandmed, mis tekitavad GDPR-riski.

45 minutit pakktöötlust on erinevus hilinenud vastavuse ülevaatuse ja sirgjoonelise DPO kinnitamise vahel.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.