anonym.legal
Nazaj na blogTehnično

Ponovljiva zasebnost: zakaj ekipe ML potrebujejo prednastavitve konfiguracije, ne le dokumentacijo

Anonimizacija podatkov za usposabljanje ML mora biti dosledna in ponovljiva. Če podatkovni znanstveniki A in B uporabijo drugačne vrste subjektov, so nabori podatkov za usposabljanje nedosledni. CNIL je leta 2024 preiskala podjetja AI za neprimerno uporabo podatkov za usposabljanje. Prednastavitve so tehnična rešitev.

March 15, 20266 min branja
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Ponovljiva zasebnost: zakaj ekipe ML potrebujejo prednastavitve konfiguracije, ne le dokumentacijo

DPO je odobril dokument postopka anonimizacije. Specifikacija: odmišljati imena, e-poštne naslove, telefonske številke in datume rojstva iz nabora podatkov za usposabljanje s pomočjo metode Zamenjava. Dokument je 4 strani in živi v wiki skladnosti.

Dvanajst podatkovnih znanstvenikov se za njim pogleda pri začetku projekta. Konfigurirajte svoje različice orodja anonimizacije. Nekateri dodajajo nacionalne ID-je. Nekateri vključujejo IP naslove. Nekateri uporabljajo Redact namesto Zamenjava. Tri mesece kasneje so nabori podatkov za usposabljanje nedosledni.

CNIL (francoski DPA) je leta 2024 preiskala več podjetij AI za neprimerno uporabo osebnih podatkov v naborih podatkov za usposabljanje. Preiskave so pregledali ne samo to, ali se je zgodila anonimizacija, ampak kako dosledne so bile nanesene.

Dokumentacija je potrebna. Ni dovolj. Tehnična rešitev je prednastavka.

Zakaj podatki za usposabljanje ML zahtevajo specifično konfiguraciju

Anonimizacija podatkov za usposabljanje ML ima zahteve, ki jih splošna anonimizacija dokumentov nima:

Zamenjava, ne Redact: Nevronske mreže za jeziki, usposobljene na besedilu, kjer so imena zamenjana z žetoni [REDACTED], se naučijo, da je [REDACTED] poseben identifikator, ki se pojavljajo v položajih imen. To ustvari neželljivo vedenje modela. Metoda Zamenjava (zamenjava »John Smith« z »David Chen«) ohrani statističko porazdelitvo imen v besedilu, medtem ko odstrani identificiranje informacij. Model se nauči iz realističnih положenja imena..."

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.