Skladni z GDPR podatki za strojno učenje: Anonimizacija 10.000 zapisov brez pisanja kode
Vsak tim za znanost podatkov, ki izvaja GDPR-osebne podatke, je napisal različico tega skripta:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)
To ni skladnost z GDPR. To je zamenjava e-poštnih naslovov. Nabor podatkov še vedno vsebuje imena, telefonske številke, ID-je zdravstvenih zapisov in ducat drugih kategorij osebnih podatkov, ki bodo povzročili neusklajenje.
Razlika med »sem anonimiziral e-poštne naslove« in »je ta nabor podatkov GDPR-skladen za usposabljanje ML« je velika, posledična in rutinsko podcenjena.
Zakaj GDPR omejuje uporabo podatkov za usposabljanje ML
Načelo omejevanja namena GDPR (člen 5(1)(b)) navaja, da se osebni podatki zbirajo za navedene, izrecne in zakonite namene in se ne obdelujejo na način, ki je nezdružljiv s temi nameni.
Podatki strank, zbrani za izpolnjevanje naročil, niso zbrani v namene usposabljanja modela priporočil. Podatki zdravstvenih zapisov, zbrani za zdravljenje, niso zbrani za usposabljanje modela napovedovanja ponovnega sprejema. Podatki odgovorov na anketo, zbrani za povratne informacije o izdelkih, niso zbrani za usposabljanje modela analize nastrojev.
Uporaba teh podatkov za usposabljanje ML zahteva:
- Soglasje vsakega subjekta podatkov za namen usposabljanja ML (delovno zapleteno, pogosto nemogoče retroaktivno)
- Ocena legitimnega interesa, ki kaže namen usposabljanja