anonym.legal

By · Last updated 2026-06-03

Nazaj na blogTehnično

Reproduktibilna zasebnost: Prednastavitve ML

Anonimizacija podatkov za usposabljanje ML mora biti dosledna in reproduktibilna. Ce podatkovna znanstvenika A in B uporabita razlicne vrste entitet, nabori podatkov za usposabljanje so.

June 3, 20266 min branja
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproduktibilna zasebnost: Zakaj ekipe ML potrebujejo prednastavitve, ne le dokumentacijo

Pooblascenec za varstvo podatkov (DPO) je odobril nacrt anonimizacije. Zajema stiri elemente: imena, e-postne naslove, telefonske stevilke in datume rojstva. Metoda je Zamenjava. Nacrt steje stiri strani in zivi v skladsiscu dokumentov skladnosti.

Dvanajst podatkovnih znanstvenikov ga prebere na zagonu. Vsak nastavi orodje sam. Nekateri dodajo nacionalne ID-je. Nekateri dodajo IP-naslove. Nekateri preklopijo na Redakt. Tri mesece pozneje nizi podatkov niso dosledni.

CNIL je leta 2024 preveril vec podjetij z UI. Tezava: nepravilna uporaba osebnih podatkov v modelnih naborih. Niso vprasali le, ali se je anonimizacija zgodila. Vprasali so, kako dosledno je bila uporabljena.

Dokumentacija je potrebna. Ni dovolj. Resitev je prednastavitev.

Zakaj modelni nabori ML potrebujejo lastno konfiguracijo

Gradnja modelnih naborov ima edinstvene zahteve. Splosna anonimizacija dokumentov jih ne deli.

Zamenjava, ne Redakt. Modeli, usposobljeni na besedilu, kjer so imena postala [REDACTED], se naucijo tega tokena kot oznacevala polozaja imen. To poskoduJe model. Zamenjava nadomesti "Janez Novak" z "David Chen". Model vidi realne vzorce imen. Ne vidi maskirnega tokena.

Enak postopek za vse evidence. Nabor, kjer je 70 % imen zamenjanih in 30 % je [REDACTED], poslje mesano sporocilo. Vsaka evidenca mora iti skozi enake korake.

Enak seznam entitet. Ce nabor vsebuje zdravstvene podatke, odstranitev imen, a pustitev datumov rojstva v nekaterih evidencah, ustvari vrzeli. Vseh dvanajst podatkovnih znanstvenikov mora odstraniti iste vrste.

Brez prek-odstranjevanja. Odstranjevanje datumov, ki so casovni znaki -- ne datumi rojstva -- zmanjsa kakovost nabora brez pridobitve skladnosti. Odobren preset natancno doloca, katere elemente je treba odstraniti.

Ponovljiv izhod. Ce je treba nabor znova zagnati -- recimo, po odkritju zamujene vrste entitete -- preset da enak rezultat vsakic. Ad-hoc konfiguracije tega ne morejo zagotoviti.

Problem dvanajstih podatkovnih znanstvenikov

Ekipa ML finteha v Evropi uporablja nabore iz dnevnikov strank. DPO je odobril namen -- zaznavanje goljufij -- z enim pravilom: vsa imena strank, e-postni naslovi, telefonske stevilke in ID-ji placil morajo biti zamenjani, preden se zacne modelno delo.

Brez prednastavitev:

  • Oseba 1 odstrani imena, e-postne naslove in telefonske stevilke -- toda zamudi ID-je placil
  • Oseba 2 vkljuci ID-je placil, a uporablja Redakt, ne Zamenjavo
  • Oseba 3 tocno sledi dokumentu nacr ta
  • Osebe 4-12 se razlikujejo

Zdruzeni nabor je delno neskladen in delno prekomerno obdelan. DPO ga ne more potrditi.

Z DPO-odobreno prednastavitvijo:

  • DPO ustvari "ML Dev -- Zaznavanje goljufij" s tocnimi vrstami entitet in metodo Zamenjava
  • Prednastavitev gre vsem dvanajstim z enim pravilom: za vse modelno delo uporabite to
  • Nihce ne more spremeniti prednastavitve brez odobritve DPO

Vsaka oseba zdaj ustvari enak izhod. Zdruzeni nabor je dosleden. Letna revizija UI se opravi brez ugotovitev. Prejsnje leto je imelo tri ugotovitve iz nedoslednega dela z nabori.

GDPR in Zakon o UI

Posodobljeno za leto 2026

Zakon EU o UI je v celoti stopil v veljavo avgusta 2024. Dodaja pravila za sisteme UI, ki za modelno delo uporabljajo osebne podatke. Visoko tvegani sistemi UI morajo dokumentirati svoje nabore, vkljucno s tem, katera anonimizacija je bila uporabljena.

Clen 5(1)(b) GDPR -- pravilo o omejitvi namena -- blokira uporabo osebnih podatkov brez jasne pravne podlage. Primeri CNIL iz leta 2024 so se osredotocili na to vrzel: podatki, zbrani za eno storitev, uporabljeni za modelno delo brez veljavne podlage ali anonimizacije.

Prednastavitve pomagajo izpolniti oba niza pravil:

  • Ime in konfiguracija prednastavitve: dokumentirana metoda
  • Dnevniki obdelave: dokaz, da je bila metoda uporabljena
  • Odobritev DPO: zabelezena potrditev konfiguracije

To ustvari revizijsko sled, ki jo zahtevata oba zakona. Za obveznosti po Clenu 10 v podrobnosti glejte vodic za podatke o usposabljanju EU AI Act.

Konfiguracija prednastavitev za nabore NLP modelov

Vrste, ki jih je treba vkljuciti v vecino naborov NLP modelov:

  • PERSON -- Zamenjava s podobnimi imeni
  • EMAIL_ADDRESS -- Zamenjava s sinteticnimi naslovi
  • PHONE_NUMBER -- Zamenjava s sinteticnimi stevilkami
  • CREDIT_CARD / IBAN -- Zamenjava ali Redakt
  • LOCATION -- Zamenjava s podobnimi kraji, ce je lokacija pomembna; Redakt, ce ni
  • DATE_OF_BIRTH -- Redakt; pogosto je potrebno grupiranje po starosti

Vrste, ki se pogosto izpuscajo:

  • Splosni datumi -- casovni znaki pomagajo casovnim modelom
  • Imena organizacij -- pomagajo modelom za prepoznavanje imenskih entitet
  • URL-ji -- pomagajo modelom za povezave in reference

Vodja ML in DPO nastavita ta pravila v odobreni prednastavitvi. Clani ekipe jo uveljavljajo. Ne sprejemajo konfiguracijskih odlocitev.

Prednastavitve kot institucijski spomin

Pred prednastavitvami. Pravilna konfiguracija entitet je zivela v glavah treh podatkovnih znanstvenikov. Delali so skozi pregled skladnosti. Dva sta odisla v Q3. Znanje je slo z njima.

Po prednastavitvah. Konfiguracija zivi v "ML Dev -- Evidence strank v2.1". Dnevnik razlicic pokaze, kdaj je bila narejena, kdo jo je odobril in kaj se je spremenilo od v2.0. Novi clani ekipe uporabljajo prednastavitev in dobijo vso znanje, vgrajeno vanjo.

Razlicica 2.1 je dodala zaznavanje IBAN po tem, ko je pregled ugotovil, da manjka. Razlicica 2.0 je bila odobrena februarja 2025. Dnevnik je popoln.

Za to, kako delujejo dnevniki obdelave in tokovi pregleda DPO, glejte vodic za anonimizacijo ML usposabljanja GDPR.

Prednastavitve vs. vzorec CNIL

Primeri UI CNIL iz leta 2024 vzpostavljajo jasen vzorec. Sprasuljejo ne le, kaj je bilo odstranjeno, ampak kako je bilo upravljano. Skupna prednastavitev z evidenco odobritve DPO in dnevniki obdelave na to odgovori neposredno.

Ad-hoc konfiguracija ne odgovori. Enaka vrzel obstaja v drugih primerih DPA EU, ki sledijo logiki CNIL. Za vec o pristopu CNIL do UI glejte vodic za skladnost CNIL GDPR UI.

Zakljucek

Dokumentacija clanov ekipe pove, kaj morajo storiti. Prednastavitve to olajsajo -- in uveljavijo -- da to storijo enako vsakic.

Za modelne nabore ML je doslednost tako pravna kot tehnicna zahteva. Prednastavitev obe izpolni hkrati.

DPA-ji, ki gledajo prakse UI, zelijo dokaze o enotni anonimizaciji. Prednastavitev, ki se na enak nacin uveljavi pri vseh delih nabora, je najjasnejsi dokaz, ki ga lahko podate.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.