Korratav eraisikute: miks ML meeskonnad vajavad konfiguratsioon eelseadeid, mitte ainult dokumentatsiooni
DPO heakskiidab anonüümimise protseduur dokument. See määrab: eemaldada nimed, e-postid, telefoninumbrid ja sünni kuupäevad koolituandmestikest, kasutades asendamise meetodit. Dokument on 4 leheküljed ja elab nõuetele vastavuse vikis.
Kaksteist andmeteadlast konsulteerib seda projekti alustamisel. Nad konfigureerivad oma versiooni anonüümimise vahendist. Mõned lisage rahvuslikud ID-d. Mõned kaasavad IP aadressid. Mõned kasutada Redact asendamise asemel. Kolm kuud hiljem, on koolituandmestikud ebajärjepidev.
CNIL (Prantsuse DPA) uuris mitut AI ettevõtteid 2024 ebaõiges isiklike andmete kasutamiseks koolitusandmestikud. Uuringud uurisid mitte ainult kas anonüümmine toimunud, vaid kuidas järjepidevalt see oli kohaldatakse.
Dokumentatsioon on vajalik. See ei ole piisav. Tehniline lahendus on eelseade.
Miks ML koolituandmete nõuab spetsiifiline konfiguratsioon
ML koolituandmete anonüümmine on nõuded, et üldise dokumendi anonüümsus ei ole:
Asenda, mitte Redact: neural keele mudelid koolitatud teksti kus nimed on asendatud [REDACTED] märkidega õpi, et [REDACTED] on eri identifikaator ilmuv nime positsioonidel. See loob soovitavate mudeli käitumise. Asendamise meetod (asendades "John Smith" "David Chen") säilitab statistiline jaotus nimed tekstis ajal eemaldades identifitseerimise teave. Mudel õpib realistlikest nimepositsiooni...