Ponovljiva zasebnost: zakaj ekipe ML potrebujejo prednastavitve konfiguracije, ne le dokumentacijo
DPO je odobril dokument postopka anonimizacije. Specifikacija: odmišljati imena, e-poštne naslove, telefonske številke in datume rojstva iz nabora podatkov za usposabljanje s pomočjo metode Zamenjava. Dokument je 4 strani in živi v wiki skladnosti.
Dvanajst podatkovnih znanstvenikov se za njim pogleda pri začetku projekta. Konfigurirajte svoje različice orodja anonimizacije. Nekateri dodajajo nacionalne ID-je. Nekateri vključujejo IP naslove. Nekateri uporabljajo Redact namesto Zamenjava. Tri mesece kasneje so nabori podatkov za usposabljanje nedosledni.
CNIL (francoski DPA) je leta 2024 preiskala več podjetij AI za neprimerno uporabo osebnih podatkov v naborih podatkov za usposabljanje. Preiskave so pregledali ne samo to, ali se je zgodila anonimizacija, ampak kako dosledne so bile nanesene.
Dokumentacija je potrebna. Ni dovolj. Tehnična rešitev je prednastavka.
Zakaj podatki za usposabljanje ML zahtevajo specifično konfiguraciju
Anonimizacija podatkov za usposabljanje ML ima zahteve, ki jih splošna anonimizacija dokumentov nima:
Zamenjava, ne Redact: Nevronske mreže za jeziki, usposobljene na besedilu, kjer so imena zamenjana z žetoni [REDACTED], se naučijo, da je [REDACTED] poseben identifikator, ki se pojavljajo v položajih imen. To ustvari neželljivo vedenje modela. Metoda Zamenjava (zamenjava »John Smith« z »David Chen«) ohrani statističko porazdelitvo imen v besedilu, medtem ko odstrani identificiranje informacij. Model se nauči iz realističnih положenja imena..."