By · Last updated 2026-06-03

Povratak na BlogTehnički

Reproduktabilna privatnost: ML predlošci

Anonimizacija ML podataka za treniranje mora biti dosljedna i reproduktabilna. Ako istrazivaci podataka A i B primijene razlicite vrste entiteta, skupovi podataka za treniranje su.

June 3, 20266 min čitanja
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproduktabilna privatnost: Zasto ML timovi trebaju predloške, a ne samo dokumentaciju

DPO je odobrio plan anonimizacije. Pokriva cetiri stavke: imena, e-mail adrese, brojeve telefona i datume rodenja. Metoda je Zamjena. Plan je cetverostranicni i živi na compliance wikiju.

Dvanaest istrazivaca podataka procitalo ga je na pocetnom sastanku. Svaki postavlja alat sam. Neki dodaju nacionalne ID-ove. Neki dodaju IP adrese. Neki prelaze na Brisanje. Tri meseca kasnije, skupovi nisu dosljedni.

CNIL je 2024. provjerio nekoliko AI tvrtki. Problem: nepravilna upotreba osobnih podataka u skupovima modela. Nisu samo pitali je li se anonimizacija dogodila. Pitali su koliko je dosljedno primijenjena.

Dokumenti su potrebni. Nisu dovoljni. Ispravak je predložak.

Zasto skupovi ML modela trebaju vlastitu konfiguraciju

Izgradnja skupova modela ima jedinstvene potrebe. Generalna anonimizacija dokumenata ih ne dijeli.

Zamjena, ne Brisanje. Modeli trenirani na tekstu gdje imena postaju [REDACTED] uce taj token kao marker pozicije imenova. To šteti modelu. Zamjena mijenja "Ivan Horvat" za "Marko Novak". Model vidi stvarne uzorke imena. Ne vidi token maske.

Isti proces za sve zapise. Skup gdje je 70% imena zamijenjeno a 30% je [REDACTED] šalje miješani signal. Svaki zapis mora proci kroz iste korake.

Ista lista entiteta. Ako skup sadrzi zdravstvene podatke, uklanjanje imena ali ostavljanje datuma rodenja u nekim zapisima stvara praznine. Svih dvanaest istrazivaca podataka mora ukloniti iste vrste.

Bez prekomjernog uklanjanja. Uklanjanje datuma koji su vremenski oznaci - a ne datumi rodenja - smanjuje kvalitetu skupa bez ikakve compliance dobiti. Odobreni predložak govori tocno koje stavke ukloniti.

Ponovljivi izlaz. Ako skup mora biti pokrenut ponovo - recimo, nakon što je pronadjena propuštena vrsta entiteta - predložak daje isti rezultat svaki put. Ad-hoc konfiguracije ne.

Problem dvanaest istrazivaca podataka

ML tim fintech tvrtke u Europi koristi skupove iz dnevnika klijenata. DPO je odobrio svrhu - otkrivanje prijevare - s jednim pravilom: sva korisnicki imena, e-mail adrese, brojevi telefona i ID-ovi placanja moraju biti zamijenjeni prije rada s modelom.

Bez predložaka:

  • Osoba 1 uklanja imena, e-mail adrese i brojeve telefona - ali propušta ID-ove placanja
  • Osoba 2 ukljucuje ID-ove placanja ali koristi Brisanje, a ne Zamjenu
  • Osoba 3 tocno slijedi plansku dokumentaciju
  • Osobe 4-12 variraju

Spojeni skup djelomicno nije uskladen i djelomicno je previše obraden. DPO ga ne može certificirati.

S DPO-odobrenim predloškom:

  • DPO stvara "ML Dev - Otkrivanje prijevare" s tocnim vrstama entiteta i metodom Zamjene
  • Predložak odlazi svim dvanaest osoba s jednim pravilom: koristite ovo za sve rad s skupovima
  • Nitko ne može promijeniti predložak bez DPO odobrenja

Svaka osoba sada producira isti izlaz. Spojeni skup je dosljedan. Godišnja AI revizija prolazi bez nalaza. Prethodna godina imala je tri nalaza od nedosljednog rada sa skupovima.

GDPR i AI akt

Ažurirano za 2026.

EU AI akt stupio je na snagu u kolovozu 2024. Dodaje pravila za AI sustave koji koriste osobne podatke za rad s modelom. Visokorizicni AI sustavi moraju dokumentirati svoje skupove, ukljucujuci koja je anonimizacija primijenjena.

GDPR clan 5(1)(b) - pravilo ogranicenja svrhe - blokira upotrebu osobnih podataka bez jasne pravne osnove. CNIL-ovi slucajevi iz 2024. fokusirali su se na ovaj jaz: podaci prikupljeni za jednu uslugu korišteni za rad s modelom bez valjane osnove ili anonimizacije.

Predlošci pomažu zadovoljiti oba skupa pravila:

  • Naziv predloška i konfiguracija: dokumentirana metoda
  • Zapisnici obrade: dokaz da je metoda primijenjena
  • DPO odobrenje: zabilježena potvrda konfiguracije

Ovo stvara trag revizije koji oba zakona zahtijevaju. Za obveze clanka 10 u detalju, pogledajte vodic o podacima za treniranje EU AI akta.

Konfiguracija predloška za NLP skupove modela

Vrste za ukljucivanje u vecinu NLP skupova modela:

  • PERSON - Zamijenite slicnim imenima
  • EMAIL_ADDRESS - Zamijenite sintetickim adresama
  • PHONE_NUMBER - Zamijenite sintetickim brojevima
  • CREDIT_CARD / IBAN - Zamijenite ili izbrišite
  • LOCATION - Zamijenite slicnim mjestima ako je lokacija važna; izbrišite ako nije
  • DATE_OF_BIRTH - Izbrišite; grupiranje dobi cesto je potrebno

Vrste koje se cesto izostavjaju:

  • Opci datumi - vremenski oznaci pomažu temporalnim modelima
  • Nazivi organizacija - pomažu modelima imenovanih entiteta
  • URL-ovi - pomažu modelima linkova i referenci

ML voditelj i DPO postavljaju ova pravila u odobrenom predlošku. Clanovi tima ga primjenjuju. Ne donose konfiguracijne izbore.

Predlošci kao institucionalna memorija

Prije predložaka. Ispravna konfiguracija entiteta živjela je u glavama troje istrazivaca podataka. Radili su kroz compliance pregled. Dvojica su otišla u trece tromjesecje. Znanje je otišlo s njima.

Nakon predložaka. Konfiguracija živi u "ML Dev - Zapisi klijenata v2.1." Dnevnik verzija pokazuje kada je napravljena, tko ju je odobrio i što se promijenilo od v2.0. Novi clanovi tima koriste predložak i dobivaju sva znanja ugradjena u njega.

Verzija 2.1 dodala je detekciju IBAN-a nakon što je pregled otkrio da nedostaje. Verzija 2.0 odobrena je u veljaci 2025. Dnevnik je potpun.

Za to kako tijek rada zapisnika obrade i DPO pregleda funkcionira, pogledajte GDPR vodic za anonimizaciju ML podataka za treniranje.

Predlošci nasuprot uzorka CNIL-a

CNIL-ovi AI slucajevi iz 2024. postavili su jasan uzorak. Ne pitaju samo što je uklonjeno vec kako je to vodjeno. Dijeljeni predložak s DPO zapisom odobrenja i zapisnicima obrade odgovara na to izravno.

Ad-hoc konfiguracija ne. Isti jaz postoji u drugim EU DPA slucajevima koji slijede logiku CNIL-a. Za više o CNIL-ovom AI pristupu, pogledajte CNIL GDPR AI compliance vodic.

Zakljucak

Dokumenti govore clanovima tima što trebaju ciniti. Predlošci cine to lakim - i provedivim - da se cini na isti nacin svaki put.

Za ML skupove modela, dosljednost je i pravna i tehnicka potreba. Predložak zadovoljava oboje odjednom.

DPA tijela koja gledaju AI prakse žele dokaz uniformne anonimizacije. Predložak primijenjen na isti nacin u svim radovima sa skupovima najjasniji je dokaz koji im možete dati.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.