Reproducibilna privatnost: Zasto ML timovi trebaju predefinisane profile, a ne samo dokumentaciju

DPO je odobrio plan anonimizacije. On pokriva cetiri stavke: imena, e-mail adrese, brojeve telefona i datume rodjenja. Metoda je Replace. Plan ima cetiri stranice i nalazi se na wiki-ju za uskladenost.

Dvanaest naucnika za podatke procitalo ga je na uvodu. Svako sam podesava alatku. Neki dodaju nacionalne ID-jeve. Neki dodaju IP adrese. Neki prelaze na Redact. Tri meseca kasnije, skupovi nisu dosledni.

CNIL je proveravao nekoliko AI firmi u 2024. godini. Pitanje: nepravilna upotreba licnih podataka u skupovima modela. Nisu samo pitali da li je anonimizacija obavljena. Pitali su koliko dosled no je primenjena.

Dokumentacija je potrebna. Nije dovoljna. Rešenje je predefinisani profil.

Zasto skupovi podataka ML modela trebaju sopstvenu konfiguraciju

Granje skupova modela ima jedinstvene potrebe. Opšta anonimizacija dokumenata ih ne deli.

Replace, ne Redact. Modeli obuceni na tekstu gde imena postaju [REDACTED] uce taj token kao marker pozicije-imena. Ovo šteti modelu. Replace menja "Petar Petrovic" za "Marko Markovic". Model vidi stvarne obrasce imena. Ne vidi token maske.

Isti proces za sve zapise. Skup gde je 70% imena zamenjeno i 30% je [REDACTED] salje mesovit signal. Svaki zapis mora proci kroz iste korake.

Ista lista entiteta. Ako skup sadrzi zdravstvene podatke, uklanjanje imena ali ostavljanje datuma rodjenja u nekim zapisima stvara praznine. Svih dvanaest naucnika za podatke mora ukloniti iste vrste.

Bez prekomernog uklanjanja. Uklanjanje datuma koji su vremenski markeri - ne datumi rodjenja - smanjuje kvalitet skupa bez ikakve dobiti u uskladenosti. Odobreni profil precizno kaze koje stavke treba ukloniti.

Ponovljivi rezultat. Ako skup mora biti ponovo pokrenut - recimo, nakon sto se pronadje propuštena vrsta entiteta - profil daje isti rezultat svaki put. Ad-hoc konfiguracije to ne rade.

Problem dvanaest naucnika za podatke

Fintech ML tim u Evropi koristi skupove iz evidencija klijenata. DPO je odobrio svrhu - otkrivanje prevare - sa jednim pravilom: sva imena klijenata, e-mail adrese, brojevi telefona i ID-jevi placanja moraju biti zamenjeni pre pocetka rada na modelu.

Bez predefinisanih profila:

Osoba 1 uklanja imena, e-mail adrese i brojeve telefona - ali propušta ID-jeve placanja
Osoba 2 ukljucuje ID-jeve placanja ali koristi Redact, ne Replace
Osoba 3 prati tacno dokument plana
Osobe 4-12 variraju

Spojeni skup je delimicno neuskladen i delimicno preobradjivan. DPO ga ne moze sertifikovati.

Sa DPO-odobrenim predefinisanim profilom:

DPO kreira "ML razvoj - Otkrivanje prevare" sa tacnim vrstama entiteta i metodom Replace
Profil ide svim dvanaest osoba sa jednim pravilom: koristite ovo za sav rad sa skupovima
Niko ne moze promeniti profil bez saglasnosti DPO-a

Svaka osoba sada produkuje isti rezultat. Spojeni skup je dosledan. Godišnja revizija VI prolazi bez nalaza. Prethodna godina imala je tri nalaza od nedoslednog rada sa skupovima.

Azurirano za 2026. godinu

EU Zakon o VI u potpunosti je stupio na snagu u avgustu 2024. Dodaje pravila za VI sisteme koji koriste licne podatke za rad na modelu. Visoko-rizicni VI sistemi moraju dokumentovati svoje skupove, ukljucujuci i to koja anonimizacija je primenjena.

Clan 5(1)(b) GDPR-a - pravilo o ogranicenju svrhe - blokira korišcenje licnih podataka bez jasne pravne osnove. Slucajevi CNIL iz 2024. fokusirali su se na ovaj jaz: podaci prikupljeni za jednu uslugu a korišceni za rad na modelu bez valjane osnove ili anonimizacije.

Predefinisani profili pomazu u zadovoljenju oba skupa pravila:

Naziv i konfiguracija profila: dokumentovana metoda
Zapisi o obradi: dokaz da je metoda primenjena
Odobrenje DPO-a: zabelezcena saglasnost za konfiguraciju

Ovo stvara revizijski trag koji oba zakona zahtevaju. Za obaveze po clanu 10 u detalju, pogledajte vodic za podatke za obuku EU Zakona o VI.

Konfiguracija predefinisanog profila za skupove podataka NLP modela

Vrste koje treba ukljuciti u vecini skupova podataka NLP modela:

PERSON - Zameni slicnim imenima
EMAIL_ADDRESS - Zameni sintetizovanim adresama
PHONE_NUMBER - Zameni sintetizovanim brojevima
CREDIT_CARD / IBAN - Zameni ili izbrisi
LOCATION - Zameni slicnim mestima ako je lokacija vazna; izbrisi ako nije
DATE_OF_BIRTH - Izbrisi; grupisanje po starosti je cesto potrebno

Vrste koje se cesto izostavljaju:

Opšti datumi - vremenski markeri pomazu temporalnim modelima
Nazivi organizacija - pomazu modelima prepoznavanja imenovanog entiteta
URL-ovi - pomazu modelima linkova i referenci

ML vodja i DPO postavljaju ova pravila u odobrenom predefinisanom profilu. Clanovi tima ga primenjuju. Ne donose konfiguracione izbore.

Predefinisani profili kao institucionalna memorija

Pre predefinisanih profila. Ispravna konfiguracija entiteta zivela je u glavama troje naucnika za podatke. Oni su prosli kroz reviziju uskladenosti. Dvoje je otišlo u trece tromesecje. Znanje je otišlo sa njima.

Posle predefinisanih profila. Konfiguracija zivi u "ML razvoj - Zapisi klijenata v2.1". Evidencija verzija prikazuje kada je napravljena, ko je odobrio i šta se promenilo od v2.0. Novi clanovi tima koriste profil i dobijaju sve znanje ugradjenoj u njemu.

Verzija 2.1 dodala je otkrivanje IBAN-a nakon što je pregled pronašao da nedostaje. Verzija 2.0 odobrena je u februaru 2025. Evidencija je kompletna.

Za to kako zapisi o obradi i tokovi pregleda DPO-a funkcionišu, pogledajte vodic za anonimizaciju ML podataka za obuku u skladu sa GDPR-om.

Predefinisani profili naspram CNIL obrasca

Slucajevi VI CNIL iz 2024. postavljaju jasan obrazac. Pitaju ne samo šta je uklonjeno vec kako je upravljano. Zajednicki predefinisani profil sa zapisom o odobrenju DPO-a i zapisima o obradi direktno odgovara na ovo.

Ad-hoc konfiguracija ne. Isti jaz postoji u ostalim slucajevima EU DPA koji prate CNIL logiku. Za više o CNIL VI pristupu, pogledajte vodic za uskladenost CNIL GDPR VI.

Zakljucak

Dokumentacija govori clanovima tima šta da rade. Predefinisani profili olakšavaju - i primenjuju - da se to radi na isti nacin svaki put.

Za skupove podataka ML modela, doslednost je i pravna i tehnicka potreba. Predefinisani profil ispunjava oboje odjednom.

DPA koji gledaju VI prakse zele dokaze o jednoobraznoj anonimizaciji. Predefinisani profil primenjen na isti nacin u svim radovima sa skupovima je najjasniji dokaz koji im mozete dati.

Izvori

Povezani članci

Tehnička

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

Započnite besplatnu probu Pogledajte funkcije

Reproducibilna privatnost: ML predefinisani profili

Reproducibilna privatnost: Zasto ML timovi trebaju predefinisane profile, a ne samo dokumentaciju

Zasto skupovi podataka ML modela trebaju sopstvenu konfiguraciju

Problem dvanaest naucnika za podatke

Konfiguracija predefinisanog profila za skupove podataka NLP modela

Predefinisani profili kao institucionalna memorija

Predefinisani profili naspram CNIL obrasca

Zakljucak

Izvori

Povezani članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni da zaštitite svoje podatke?

Reproducibilna privatnost: ML predefinisani profili

Reproducibilna privatnost: Zasto ML timovi trebaju predefinisane profile, a ne samo dokumentaciju

Zasto skupovi podataka ML modela trebaju sopstvenu konfiguraciju

Problem dvanaest naucnika za podatke

GDPR i Zakon o VI

Konfiguracija predefinisanog profila za skupove podataka NLP modela

Predefinisani profili kao institucionalna memorija

Predefinisani profili naspram CNIL obrasca

Zakljucak

Izvori

Povezani članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni da zaštitite svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow