Tagasi BlogisseTehniline

Korratav eraisikute: miks ML meeskonnad vajavad...

ML koolituandmete anonüümmine peab olema järjepidev ja korratav. Ja andmeteadlaste A ja B rakendasid erinevad üksuste tüübid...

April 19, 20266 min lugemist
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Korratav eraisikute: miks ML meeskonnad vajavad konfiguratsioon eelseadeid, mitte ainult dokumentatsiooni

DPO heakskiidab anonüümimise protseduur dokument. See määrab: eemaldada nimed, e-postid, telefoninumbrid ja sünni kuupäevad koolituandmestikest, kasutades asendamise meetodit. Dokument on 4 leheküljed ja elab nõuetele vastavuse vikis.

Kaksteist andmeteadlast konsulteerib seda projekti alustamisel. Nad konfigureerivad oma versiooni anonüümimise vahendist. Mõned lisage rahvuslikud ID-d. Mõned kaasavad IP aadressid. Mõned kasutada Redact asendamise asemel. Kolm kuud hiljem, on koolituandmestikud ebajärjepidev.

CNIL (Prantsuse DPA) uuris mitut AI ettevõtteid 2024 ebaõiges isiklike andmete kasutamiseks koolitusandmestikud. Uuringud uurisid mitte ainult kas anonüümmine toimunud, vaid kuidas järjepidevalt see oli kohaldatakse.

Dokumentatsioon on vajalik. See ei ole piisav. Tehniline lahendus on eelseade.

Miks ML koolituandmete nõuab spetsiifiline konfiguratsioon

ML koolituandmete anonüümmine on nõuded, et üldise dokumendi anonüümsus ei ole:

Asenda, mitte Redact: neural keele mudelid koolitatud teksti kus nimed on asendatud [REDACTED] märkidega õpi, et [REDACTED] on eri identifikaator ilmuv nime positsioonidel. See loob soovitavate mudeli käitumise. Asendamise meetod (asendades "John Smith" "David Chen") säilitab statistiline jaotus nimed tekstis ajal eemaldades identifitseerimise teave. Mudel õpib realistlikest nimepositsiooni...

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.