Reproduktabilna privatnost: Zasto ML timovi trebaju predloške, a ne samo dokumentaciju
DPO je odobrio plan anonimizacije. Pokriva cetiri stavke: imena, e-mail adrese, brojeve telefona i datume rodenja. Metoda je Zamjena. Plan je cetverostranicni i živi na compliance wikiju.
Dvanaest istrazivaca podataka procitalo ga je na pocetnom sastanku. Svaki postavlja alat sam. Neki dodaju nacionalne ID-ove. Neki dodaju IP adrese. Neki prelaze na Brisanje. Tri meseca kasnije, skupovi nisu dosljedni.
CNIL je 2024. provjerio nekoliko AI tvrtki. Problem: nepravilna upotreba osobnih podataka u skupovima modela. Nisu samo pitali je li se anonimizacija dogodila. Pitali su koliko je dosljedno primijenjena.
Dokumenti su potrebni. Nisu dovoljni. Ispravak je predložak.
Zasto skupovi ML modela trebaju vlastitu konfiguraciju
Izgradnja skupova modela ima jedinstvene potrebe. Generalna anonimizacija dokumenata ih ne dijeli.
Zamjena, ne Brisanje. Modeli trenirani na tekstu gdje imena postaju [REDACTED] uce taj token kao marker pozicije imenova. To šteti modelu. Zamjena mijenja "Ivan Horvat" za "Marko Novak". Model vidi stvarne uzorke imena. Ne vidi token maske.
Isti proces za sve zapise. Skup gdje je 70% imena zamijenjeno a 30% je [REDACTED] šalje miješani signal. Svaki zapis mora proci kroz iste korake.
Ista lista entiteta. Ako skup sadrzi zdravstvene podatke, uklanjanje imena ali ostavljanje datuma rodenja u nekim zapisima stvara praznine. Svih dvanaest istrazivaca podataka mora ukloniti iste vrste.
Bez prekomjernog uklanjanja. Uklanjanje datuma koji su vremenski oznaci - a ne datumi rodenja - smanjuje kvalitetu skupa bez ikakve compliance dobiti. Odobreni predložak govori tocno koje stavke ukloniti.
Ponovljivi izlaz. Ako skup mora biti pokrenut ponovo - recimo, nakon što je pronadjena propuštena vrsta entiteta - predložak daje isti rezultat svaki put. Ad-hoc konfiguracije ne.
Problem dvanaest istrazivaca podataka
ML tim fintech tvrtke u Europi koristi skupove iz dnevnika klijenata. DPO je odobrio svrhu - otkrivanje prijevare - s jednim pravilom: sva korisnicki imena, e-mail adrese, brojevi telefona i ID-ovi placanja moraju biti zamijenjeni prije rada s modelom.
Bez predložaka:
- Osoba 1 uklanja imena, e-mail adrese i brojeve telefona - ali propušta ID-ove placanja
- Osoba 2 ukljucuje ID-ove placanja ali koristi Brisanje, a ne Zamjenu
- Osoba 3 tocno slijedi plansku dokumentaciju
- Osobe 4-12 variraju
Spojeni skup djelomicno nije uskladen i djelomicno je previše obraden. DPO ga ne može certificirati.
S DPO-odobrenim predloškom:
- DPO stvara "ML Dev - Otkrivanje prijevare" s tocnim vrstama entiteta i metodom Zamjene
- Predložak odlazi svim dvanaest osoba s jednim pravilom: koristite ovo za sve rad s skupovima
- Nitko ne može promijeniti predložak bez DPO odobrenja
Svaka osoba sada producira isti izlaz. Spojeni skup je dosljedan. Godišnja AI revizija prolazi bez nalaza. Prethodna godina imala je tri nalaza od nedosljednog rada sa skupovima.
GDPR i AI akt
Ažurirano za 2026.
EU AI akt stupio je na snagu u kolovozu 2024. Dodaje pravila za AI sustave koji koriste osobne podatke za rad s modelom. Visokorizicni AI sustavi moraju dokumentirati svoje skupove, ukljucujuci koja je anonimizacija primijenjena.
GDPR clan 5(1)(b) - pravilo ogranicenja svrhe - blokira upotrebu osobnih podataka bez jasne pravne osnove. CNIL-ovi slucajevi iz 2024. fokusirali su se na ovaj jaz: podaci prikupljeni za jednu uslugu korišteni za rad s modelom bez valjane osnove ili anonimizacije.
Predlošci pomažu zadovoljiti oba skupa pravila:
- Naziv predloška i konfiguracija: dokumentirana metoda
- Zapisnici obrade: dokaz da je metoda primijenjena
- DPO odobrenje: zabilježena potvrda konfiguracije
Ovo stvara trag revizije koji oba zakona zahtijevaju. Za obveze clanka 10 u detalju, pogledajte vodic o podacima za treniranje EU AI akta.
Konfiguracija predloška za NLP skupove modela
Vrste za ukljucivanje u vecinu NLP skupova modela:
- PERSON - Zamijenite slicnim imenima
- EMAIL_ADDRESS - Zamijenite sintetickim adresama
- PHONE_NUMBER - Zamijenite sintetickim brojevima
- CREDIT_CARD / IBAN - Zamijenite ili izbrišite
- LOCATION - Zamijenite slicnim mjestima ako je lokacija važna; izbrišite ako nije
- DATE_OF_BIRTH - Izbrišite; grupiranje dobi cesto je potrebno
Vrste koje se cesto izostavjaju:
- Opci datumi - vremenski oznaci pomažu temporalnim modelima
- Nazivi organizacija - pomažu modelima imenovanih entiteta
- URL-ovi - pomažu modelima linkova i referenci
ML voditelj i DPO postavljaju ova pravila u odobrenom predlošku. Clanovi tima ga primjenjuju. Ne donose konfiguracijne izbore.
Predlošci kao institucionalna memorija
Prije predložaka. Ispravna konfiguracija entiteta živjela je u glavama troje istrazivaca podataka. Radili su kroz compliance pregled. Dvojica su otišla u trece tromjesecje. Znanje je otišlo s njima.
Nakon predložaka. Konfiguracija živi u "ML Dev - Zapisi klijenata v2.1." Dnevnik verzija pokazuje kada je napravljena, tko ju je odobrio i što se promijenilo od v2.0. Novi clanovi tima koriste predložak i dobivaju sva znanja ugradjena u njega.
Verzija 2.1 dodala je detekciju IBAN-a nakon što je pregled otkrio da nedostaje. Verzija 2.0 odobrena je u veljaci 2025. Dnevnik je potpun.
Za to kako tijek rada zapisnika obrade i DPO pregleda funkcionira, pogledajte GDPR vodic za anonimizaciju ML podataka za treniranje.
Predlošci nasuprot uzorka CNIL-a
CNIL-ovi AI slucajevi iz 2024. postavili su jasan uzorak. Ne pitaju samo što je uklonjeno vec kako je to vodjeno. Dijeljeni predložak s DPO zapisom odobrenja i zapisnicima obrade odgovara na to izravno.
Ad-hoc konfiguracija ne. Isti jaz postoji u drugim EU DPA slucajevima koji slijede logiku CNIL-a. Za više o CNIL-ovom AI pristupu, pogledajte CNIL GDPR AI compliance vodic.
Zakljucak
Dokumenti govore clanovima tima što trebaju ciniti. Predlošci cine to lakim - i provedivim - da se cini na isti nacin svaki put.
Za ML skupove modela, dosljednost je i pravna i tehnicka potreba. Predložak zadovoljava oboje odjednom.
DPA tijela koja gledaju AI prakse žele dokaz uniformne anonimizacije. Predložak primijenjen na isti nacin u svim radovima sa skupovima najjasniji je dokaz koji im možete dati.