Reproduktibilna zasebnost: Zakaj ekipe ML potrebujejo prednastavitve, ne le dokumentacijo
Pooblascenec za varstvo podatkov (DPO) je odobril nacrt anonimizacije. Zajema stiri elemente: imena, e-postne naslove, telefonske stevilke in datume rojstva. Metoda je Zamenjava. Nacrt steje stiri strani in zivi v skladsiscu dokumentov skladnosti.
Dvanajst podatkovnih znanstvenikov ga prebere na zagonu. Vsak nastavi orodje sam. Nekateri dodajo nacionalne ID-je. Nekateri dodajo IP-naslove. Nekateri preklopijo na Redakt. Tri mesece pozneje nizi podatkov niso dosledni.
CNIL je leta 2024 preveril vec podjetij z UI. Tezava: nepravilna uporaba osebnih podatkov v modelnih naborih. Niso vprasali le, ali se je anonimizacija zgodila. Vprasali so, kako dosledno je bila uporabljena.
Dokumentacija je potrebna. Ni dovolj. Resitev je prednastavitev.
Zakaj modelni nabori ML potrebujejo lastno konfiguracijo
Gradnja modelnih naborov ima edinstvene zahteve. Splosna anonimizacija dokumentov jih ne deli.
Zamenjava, ne Redakt. Modeli, usposobljeni na besedilu, kjer so imena postala [REDACTED], se naucijo tega tokena kot oznacevala polozaja imen. To poskoduJe model. Zamenjava nadomesti "Janez Novak" z "David Chen". Model vidi realne vzorce imen. Ne vidi maskirnega tokena.
Enak postopek za vse evidence. Nabor, kjer je 70 % imen zamenjanih in 30 % je [REDACTED], poslje mesano sporocilo. Vsaka evidenca mora iti skozi enake korake.
Enak seznam entitet. Ce nabor vsebuje zdravstvene podatke, odstranitev imen, a pustitev datumov rojstva v nekaterih evidencah, ustvari vrzeli. Vseh dvanajst podatkovnih znanstvenikov mora odstraniti iste vrste.
Brez prek-odstranjevanja. Odstranjevanje datumov, ki so casovni znaki -- ne datumi rojstva -- zmanjsa kakovost nabora brez pridobitve skladnosti. Odobren preset natancno doloca, katere elemente je treba odstraniti.
Ponovljiv izhod. Ce je treba nabor znova zagnati -- recimo, po odkritju zamujene vrste entitete -- preset da enak rezultat vsakic. Ad-hoc konfiguracije tega ne morejo zagotoviti.
Problem dvanajstih podatkovnih znanstvenikov
Ekipa ML finteha v Evropi uporablja nabore iz dnevnikov strank. DPO je odobril namen -- zaznavanje goljufij -- z enim pravilom: vsa imena strank, e-postni naslovi, telefonske stevilke in ID-ji placil morajo biti zamenjani, preden se zacne modelno delo.
Brez prednastavitev:
- Oseba 1 odstrani imena, e-postne naslove in telefonske stevilke -- toda zamudi ID-je placil
- Oseba 2 vkljuci ID-je placil, a uporablja Redakt, ne Zamenjavo
- Oseba 3 tocno sledi dokumentu nacr ta
- Osebe 4-12 se razlikujejo
Zdruzeni nabor je delno neskladen in delno prekomerno obdelan. DPO ga ne more potrditi.
Z DPO-odobreno prednastavitvijo:
- DPO ustvari "ML Dev -- Zaznavanje goljufij" s tocnimi vrstami entitet in metodo Zamenjava
- Prednastavitev gre vsem dvanajstim z enim pravilom: za vse modelno delo uporabite to
- Nihce ne more spremeniti prednastavitve brez odobritve DPO
Vsaka oseba zdaj ustvari enak izhod. Zdruzeni nabor je dosleden. Letna revizija UI se opravi brez ugotovitev. Prejsnje leto je imelo tri ugotovitve iz nedoslednega dela z nabori.
GDPR in Zakon o UI
Posodobljeno za leto 2026
Zakon EU o UI je v celoti stopil v veljavo avgusta 2024. Dodaja pravila za sisteme UI, ki za modelno delo uporabljajo osebne podatke. Visoko tvegani sistemi UI morajo dokumentirati svoje nabore, vkljucno s tem, katera anonimizacija je bila uporabljena.
Clen 5(1)(b) GDPR -- pravilo o omejitvi namena -- blokira uporabo osebnih podatkov brez jasne pravne podlage. Primeri CNIL iz leta 2024 so se osredotocili na to vrzel: podatki, zbrani za eno storitev, uporabljeni za modelno delo brez veljavne podlage ali anonimizacije.
Prednastavitve pomagajo izpolniti oba niza pravil:
- Ime in konfiguracija prednastavitve: dokumentirana metoda
- Dnevniki obdelave: dokaz, da je bila metoda uporabljena
- Odobritev DPO: zabelezena potrditev konfiguracije
To ustvari revizijsko sled, ki jo zahtevata oba zakona. Za obveznosti po Clenu 10 v podrobnosti glejte vodic za podatke o usposabljanju EU AI Act.
Konfiguracija prednastavitev za nabore NLP modelov
Vrste, ki jih je treba vkljuciti v vecino naborov NLP modelov:
- PERSON -- Zamenjava s podobnimi imeni
- EMAIL_ADDRESS -- Zamenjava s sinteticnimi naslovi
- PHONE_NUMBER -- Zamenjava s sinteticnimi stevilkami
- CREDIT_CARD / IBAN -- Zamenjava ali Redakt
- LOCATION -- Zamenjava s podobnimi kraji, ce je lokacija pomembna; Redakt, ce ni
- DATE_OF_BIRTH -- Redakt; pogosto je potrebno grupiranje po starosti
Vrste, ki se pogosto izpuscajo:
- Splosni datumi -- casovni znaki pomagajo casovnim modelom
- Imena organizacij -- pomagajo modelom za prepoznavanje imenskih entitet
- URL-ji -- pomagajo modelom za povezave in reference
Vodja ML in DPO nastavita ta pravila v odobreni prednastavitvi. Clani ekipe jo uveljavljajo. Ne sprejemajo konfiguracijskih odlocitev.
Prednastavitve kot institucijski spomin
Pred prednastavitvami. Pravilna konfiguracija entitet je zivela v glavah treh podatkovnih znanstvenikov. Delali so skozi pregled skladnosti. Dva sta odisla v Q3. Znanje je slo z njima.
Po prednastavitvah. Konfiguracija zivi v "ML Dev -- Evidence strank v2.1". Dnevnik razlicic pokaze, kdaj je bila narejena, kdo jo je odobril in kaj se je spremenilo od v2.0. Novi clani ekipe uporabljajo prednastavitev in dobijo vso znanje, vgrajeno vanjo.
Razlicica 2.1 je dodala zaznavanje IBAN po tem, ko je pregled ugotovil, da manjka. Razlicica 2.0 je bila odobrena februarja 2025. Dnevnik je popoln.
Za to, kako delujejo dnevniki obdelave in tokovi pregleda DPO, glejte vodic za anonimizacijo ML usposabljanja GDPR.
Prednastavitve vs. vzorec CNIL
Primeri UI CNIL iz leta 2024 vzpostavljajo jasen vzorec. Sprasuljejo ne le, kaj je bilo odstranjeno, ampak kako je bilo upravljano. Skupna prednastavitev z evidenco odobritve DPO in dnevniki obdelave na to odgovori neposredno.
Ad-hoc konfiguracija ne odgovori. Enaka vrzel obstaja v drugih primerih DPA EU, ki sledijo logiki CNIL. Za vec o pristopu CNIL do UI glejte vodic za skladnost CNIL GDPR UI.
Zakljucek
Dokumentacija clanov ekipe pove, kaj morajo storiti. Prednastavitve to olajsajo -- in uveljavijo -- da to storijo enako vsakic.
Za modelne nabore ML je doslednost tako pravna kot tehnicna zahteva. Prednastavitev obe izpolni hkrati.
DPA-ji, ki gledajo prakse UI, zelijo dokaze o enotni anonimizaciji. Prednastavitev, ki se na enak nacin uveljavi pri vseh delih nabora, je najjasnejsi dokaz, ki ga lahko podate.