anonym.legal

By · Last updated 2026-06-04

Povratak na blogTehnička

Reproducibilna privatnost: ML predefinisani profili

Anonimizacija ML podataka za obuku mora biti dosledna i reproducibilna. Ako naucnici za podatke A i B primene razlicite vrste entiteta, skupovi podataka za obuku su nedosledni.

June 4, 20266 min čitanja
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproducibilna privatnost: Zasto ML timovi trebaju predefinisane profile, a ne samo dokumentaciju

DPO je odobrio plan anonimizacije. On pokriva cetiri stavke: imena, e-mail adrese, brojeve telefona i datume rodjenja. Metoda je Replace. Plan ima cetiri stranice i nalazi se na wiki-ju za uskladenost.

Dvanaest naucnika za podatke procitalo ga je na uvodu. Svako sam podesava alatku. Neki dodaju nacionalne ID-jeve. Neki dodaju IP adrese. Neki prelaze na Redact. Tri meseca kasnije, skupovi nisu dosledni.

CNIL je proveravao nekoliko AI firmi u 2024. godini. Pitanje: nepravilna upotreba licnih podataka u skupovima modela. Nisu samo pitali da li je anonimizacija obavljena. Pitali su koliko dosled no je primenjena.

Dokumentacija je potrebna. Nije dovoljna. Rešenje je predefinisani profil.

Zasto skupovi podataka ML modela trebaju sopstvenu konfiguraciju

Granje skupova modela ima jedinstvene potrebe. Opšta anonimizacija dokumenata ih ne deli.

Replace, ne Redact. Modeli obuceni na tekstu gde imena postaju [REDACTED] uce taj token kao marker pozicije-imena. Ovo šteti modelu. Replace menja "Petar Petrovic" za "Marko Markovic". Model vidi stvarne obrasce imena. Ne vidi token maske.

Isti proces za sve zapise. Skup gde je 70% imena zamenjeno i 30% je [REDACTED] salje mesovit signal. Svaki zapis mora proci kroz iste korake.

Ista lista entiteta. Ako skup sadrzi zdravstvene podatke, uklanjanje imena ali ostavljanje datuma rodjenja u nekim zapisima stvara praznine. Svih dvanaest naucnika za podatke mora ukloniti iste vrste.

Bez prekomernog uklanjanja. Uklanjanje datuma koji su vremenski markeri - ne datumi rodjenja - smanjuje kvalitet skupa bez ikakve dobiti u uskladenosti. Odobreni profil precizno kaze koje stavke treba ukloniti.

Ponovljivi rezultat. Ako skup mora biti ponovo pokrenut - recimo, nakon sto se pronadje propuštena vrsta entiteta - profil daje isti rezultat svaki put. Ad-hoc konfiguracije to ne rade.

Problem dvanaest naucnika za podatke

Fintech ML tim u Evropi koristi skupove iz evidencija klijenata. DPO je odobrio svrhu - otkrivanje prevare - sa jednim pravilom: sva imena klijenata, e-mail adrese, brojevi telefona i ID-jevi placanja moraju biti zamenjeni pre pocetka rada na modelu.

Bez predefinisanih profila:

  • Osoba 1 uklanja imena, e-mail adrese i brojeve telefona - ali propušta ID-jeve placanja
  • Osoba 2 ukljucuje ID-jeve placanja ali koristi Redact, ne Replace
  • Osoba 3 prati tacno dokument plana
  • Osobe 4-12 variraju

Spojeni skup je delimicno neuskladen i delimicno preobradjivan. DPO ga ne moze sertifikovati.

Sa DPO-odobrenim predefinisanim profilom:

  • DPO kreira "ML razvoj - Otkrivanje prevare" sa tacnim vrstama entiteta i metodom Replace
  • Profil ide svim dvanaest osoba sa jednim pravilom: koristite ovo za sav rad sa skupovima
  • Niko ne moze promeniti profil bez saglasnosti DPO-a

Svaka osoba sada produkuje isti rezultat. Spojeni skup je dosledan. Godišnja revizija VI prolazi bez nalaza. Prethodna godina imala je tri nalaza od nedoslednog rada sa skupovima.

GDPR i Zakon o VI

Azurirano za 2026. godinu

EU Zakon o VI u potpunosti je stupio na snagu u avgustu 2024. Dodaje pravila za VI sisteme koji koriste licne podatke za rad na modelu. Visoko-rizicni VI sistemi moraju dokumentovati svoje skupove, ukljucujuci i to koja anonimizacija je primenjena.

Clan 5(1)(b) GDPR-a - pravilo o ogranicenju svrhe - blokira korišcenje licnih podataka bez jasne pravne osnove. Slucajevi CNIL iz 2024. fokusirali su se na ovaj jaz: podaci prikupljeni za jednu uslugu a korišceni za rad na modelu bez valjane osnove ili anonimizacije.

Predefinisani profili pomazu u zadovoljenju oba skupa pravila:

  • Naziv i konfiguracija profila: dokumentovana metoda
  • Zapisi o obradi: dokaz da je metoda primenjena
  • Odobrenje DPO-a: zabelezcena saglasnost za konfiguraciju

Ovo stvara revizijski trag koji oba zakona zahtevaju. Za obaveze po clanu 10 u detalju, pogledajte vodic za podatke za obuku EU Zakona o VI.

Konfiguracija predefinisanog profila za skupove podataka NLP modela

Vrste koje treba ukljuciti u vecini skupova podataka NLP modela:

  • PERSON - Zameni slicnim imenima
  • EMAIL_ADDRESS - Zameni sintetizovanim adresama
  • PHONE_NUMBER - Zameni sintetizovanim brojevima
  • CREDIT_CARD / IBAN - Zameni ili izbrisi
  • LOCATION - Zameni slicnim mestima ako je lokacija vazna; izbrisi ako nije
  • DATE_OF_BIRTH - Izbrisi; grupisanje po starosti je cesto potrebno

Vrste koje se cesto izostavljaju:

  • Opšti datumi - vremenski markeri pomazu temporalnim modelima
  • Nazivi organizacija - pomazu modelima prepoznavanja imenovanog entiteta
  • URL-ovi - pomazu modelima linkova i referenci

ML vodja i DPO postavljaju ova pravila u odobrenom predefinisanom profilu. Clanovi tima ga primenjuju. Ne donose konfiguracione izbore.

Predefinisani profili kao institucionalna memorija

Pre predefinisanih profila. Ispravna konfiguracija entiteta zivela je u glavama troje naucnika za podatke. Oni su prosli kroz reviziju uskladenosti. Dvoje je otišlo u trece tromesecje. Znanje je otišlo sa njima.

Posle predefinisanih profila. Konfiguracija zivi u "ML razvoj - Zapisi klijenata v2.1". Evidencija verzija prikazuje kada je napravljena, ko je odobrio i šta se promenilo od v2.0. Novi clanovi tima koriste profil i dobijaju sve znanje ugradjenoj u njemu.

Verzija 2.1 dodala je otkrivanje IBAN-a nakon što je pregled pronašao da nedostaje. Verzija 2.0 odobrena je u februaru 2025. Evidencija je kompletna.

Za to kako zapisi o obradi i tokovi pregleda DPO-a funkcionišu, pogledajte vodic za anonimizaciju ML podataka za obuku u skladu sa GDPR-om.

Predefinisani profili naspram CNIL obrasca

Slucajevi VI CNIL iz 2024. postavljaju jasan obrazac. Pitaju ne samo šta je uklonjeno vec kako je upravljano. Zajednicki predefinisani profil sa zapisom o odobrenju DPO-a i zapisima o obradi direktno odgovara na ovo.

Ad-hoc konfiguracija ne. Isti jaz postoji u ostalim slucajevima EU DPA koji prate CNIL logiku. Za više o CNIL VI pristupu, pogledajte vodic za uskladenost CNIL GDPR VI.

Zakljucak

Dokumentacija govori clanovima tima šta da rade. Predefinisani profili olakšavaju - i primenjuju - da se to radi na isti nacin svaki put.

Za skupove podataka ML modela, doslednost je i pravna i tehnicka potreba. Predefinisani profil ispunjava oboje odjednom.

DPA koji gledaju VI prakse zele dokaze o jednoobraznoj anonimizaciji. Predefinisani profil primenjen na isti nacin u svim radovima sa skupovima je najjasniji dokaz koji im mozete dati.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.