By · Last updated 2026-06-03

Tagasi BlogisseTehniline

Taasesitatav privaatsus: ML eelsatted

ML koolitusdaagandmete anonüümimine peab olema järjekindel ja taasesitatav. Kui andmeteadlased A ja B rakendavad erinevaid olemitüüpe, ei ole koolitusdaagandmestikud.

June 3, 20266 min lugemist
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Taasesitatav privaatsus: miks ML meeskonnad vajavad eelsatteid, mitte ainult dokumentatsiooni

DPO kinnitas anonüümimise kava. See katab neli punkti: nimed, e-posti aadressid, telefoninumbrid ja sunnikuupaevad. Meetod on Asendamine. Kava on neli lehekülge ja asub vastavuse wikis.

Kaksteist andmeteadlast lugesid seda algatamise ajal. Igaüks seab tööriista ise üles. Moned lisavad rahvuslikud ID-d. Moned lisavad IP-aadressid. Moned liiguvad Varjamisele. Kolm kuud hiljem pole andmestikud järjekindlad.

CNIL kontrollis mitmeid tehisintellekti firmasid 2024. aastal. Probleem: isikuandmete ebaõige kasutamine mudelite andmestikes. Nad ei küsinud ainult, kas anonüümimine toimus. Nad küsisid, kui järjekindlalt seda rakendati.

Dokumentatsioon on vajalik. See ei ole piisav. Lahendus on eelsäte.

Miks ML mudelite andmestikud vajavad oma konfiguratsiooni

Mudelite andmestike koostamisel on ainulaadsed vajadused. Üldine dokumendianonüümimine neid ei jaga.

Asendamine, mitte Varjamine. Mudelid, mida koolitatakse tekstil, kus nimed muutuvad [REDACTED]-ks, opivad seda lugendit nime-positsioonina. See kahjustab mudelit. Asendamine vahetab "Jaan Tamm" valja "Mart Sepp" vastu. Mudel nab reaalseid nimemustrid. See ei naa maskimise lugendit.

Sama protsess koigi andmestike jaoks. Andmestik, kus 70% nimedest on asendatud ja 30% on [REDACTED], annab segase signaali. Iga andmestik peab labimaama samad sammud.

Sama olemite nimekiri. Kui andmestik sisaldab terviseandmeid, siis nimede eemaldamine, kuid sunnikuupäevade jätmine mõnesse andmestiku sisse, tekitab lünki. Koik kaksteist andmeteadlast peavad eemaldama samad tüübid.

Mitte üleliigne eemaldamine. Kuupäevade kõrvaldamine, mis on ajatemplid - mitte sunnikuupäevad - vahendab andmestiku kvaliteeti ilma vastavuse kasuta. Kinnitatud eelsäte ütleb tapselt, milliseid andmeid eemaldada.

Korratav vaijund. Kui andmestikku tuleb uuesti läbi joosta - näiteks pärast vahele jäänud olemitüübi avastamist - annab eelsäte iga kord sama tulemuse. Ad-hoc konfiguratsioonid seda ei tee.

Kaheteistkumne andmeteadlase probleem

Euroopa finantstehnoloogia ML meeskond kasutab kliendilogidest parit andmestikke. DPO kiitis kasutamise eesmärgi - pettuste tuvastamine - heaks ühe reegliga: koik klientide nimed, e-posti aadressid, telefoninumbrid ja makseId-d tuleb asendada enne mudeli too algust.

Ilma eelsatteta:

  • Isik 1 eemaldab nimed, e-posti aadressid ja telefoninumbrid - kuid jätab makseId-d vahele
  • Isik 2 lisab makseId-d, kuid kasutab Varjamist, mitte Asendamist
  • Isik 3 järgib kavadokumenti tapselt
  • Isikud 4-12 varieeruvad

Ühendatud andmestik on osaliselt mitte-nõuetekohane ja osaliselt üle töödeldud. DPO ei saa seda sertifitseerida.

DPO kinnitatud eelsattega:

  • DPO loob "ML arendus - pettuste tuvastamine" koos täpsete olemitüüpide ja Asendamise meetodiga
  • Eelsäte saadetakse koigile kaheteistkümnele isikule ühe reegliga: kasutage seda koigi andmestiku too jaoks
  • Keegi ei saa eelsadet muuta ilma DPO heakskiiduta

Igaüks toodab nüüd sama väljundi. Ühendatud andmestik on järjekindel. Iga-aastane tehisintellekti audit läbib nullleidudega. Eelmisel aastal oli kolm leidu ebajärjekindlast andmestiku toost.

GDPR ja tehisintellekti akt

Ajakohastatud 2026. aastaks

EL tehisintellekti akt jõustus täielikult augustis 2024. See lisab reegleid tehisintellekti süsteemidele, mis kasutavad isikuandmeid mudeli too jaoks. Korkristlike tehisintellekti süsteemide andmestikud tuleb dokumenteerida, sealhulgas rakendatud anonüümimine.

GDPR artikkel 5(1)(b) - eesmärgi piirangu reegel - blokeerib isikuandmete kasutamise ilma selge seadusliku aluseta. CNIL-i 2024. aasta juhtumid keskendusid sellele lüngale: ühe teenuse jaoks kogutud andmed kasutati mudeli töös ilma kehtiva aluse voi anonüümimiseta.

Eelsatted aitavad rahuldada mõlemat reeglite kogumit:

  • Eelsatte nimi ja konfiguratsioon: dokumenteeritud meetod
  • Töötlemislogid: tõend meetodi rakendamise kohta
  • DPO kinnitus: registreeritud heakskiit konfiguratsioonile

See loob mõlema seaduse nõutava auditi raja. Artikli 10 kohustuste üksikasjaliku teabe saamiseks vt EL tehisintellekti akti koolitusdagaandmete juhend.

Eelsatte konfiguratsioon NLP mudelite andmestike jaoks

Tüübid, mida lisada enamiku NLP mudelite andmestikesse:

  • PERSON - Asendage sarnaste nimedega
  • EMAIL_ADDRESS - Asendage sünteetiliste aadressidega
  • PHONE_NUMBER - Asendage sünteetiliste numbritega
  • CREDIT_CARD / IBAN - Asendage voi Varjake
  • LOCATION - Asendage sarnaste kohtadega, kui asukoht on oluline; Varjake, kui mitte
  • DATE_OF_BIRTH - Varjake; sageli on vaja vanuse grupeerimist

Tüübid, mis sageli välja jäetakse:

  • Üldised kuupäevad - ajatemplid aitavad ajalist mudelit
  • Organisatsioonide nimed - aitavad nimega olemite mudelit
  • URL-id - aitavad lingi- ja viitemudelit

ML juht ja DPO seavad need reeglid kinnitatud eelsattest. Meeskonnaliikmed rakendavad seda. Nad ei tee konfiguratsiooni valikuid.

Eelsatted institutsionaalse mäluna

Enne eelsatteid. Oige olemi konfiguratsioon elas kolme andmeteadlase peas. Nad olid lahti toonud vastavuse labi vaatamise. Kaks lahkusid Q3-s. Teadmised lahksid koos nendega.

Parast eelsatteid. Konfiguratsioon elab "ML arendus - klientide andmestikud v2.1"-s. Versiooni logi naitab, millal see loodi, kes selle kiitis heaks ja mis muutus v2.0-st. Uued meeskonnaliikmed kasutavad eelsadet ja saavad koik sinna sisseehitatud teadmised.

Versioon 2.1 lisas IBAN-tuvastamise parast seda, kui kontroll avastas selle puudumise. Versioon 2.0 kinnitati veebruaris 2025. Logi on taiielik.

Selle kohta, kuidas töötlemislogid ja DPO labi vaatamise vood töötavad, vt GDPR ML koolitusdaagandmete anonüümimise juhend.

Eelsatted vs. CNIL muster

CNIL-i 2024. aasta tehisintellekti juhtumid seavad selge mustri. Nad küsivad mitte ainult, mis eemaldati, vaid ka kuidas seda hallati. Jagatud eelsäte koos DPO kinnitamise andmestiku ja töötlemislogidega vastab sellele otse.

Ad-hoc konfiguratsioon ei vasta. Sama lünk esineb teistes EL andmekaitseasutuste juhtumites, mis järgivad CNIL-i loogika. CNIL-i tehisintellekti lahenemise kohta lisateabe saamiseks vt CNIL GDPR tehisintellekti vastavuse juhend.

Kokkuvõte

Dokumendid ütlevad meeskonnaliikmetele, mida teha. Eelsatted muudavad seda lihtsaks - ja jõustatavaks - teha iga kord samal viisil.

ML mudelite andmestike jaoks on järjekindlus nii seaduslik vajadus kui ka tehniline. Eelsäte rahuldab mõlemat korraga.

Andmekaitseametid, kes vaatavad tehisintellekti tavasid, tahavad tõendit ühtlasest anonüümimisest. Eelsäte, mida rakendatakse kogu andmestiku too labi samal viisil, on selgeim tõend, mida saate neile anda.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.