GDPR-i Nõuetekohasete ML-i Treeningandmete: 10 000 Kirje Anonüümseerimise Ilma Koodita
Iga andmeteaduse meeskond, kes käitab GDPR-ega seotud andmeid, on kirjutanud mõne versiooni sellest skriptist:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)
See ei ole GDPR-i nõuetekohaselt. See on meiliaadressi asendamine. Andmestik sisaldab ikkagi nimesid, telefoninumbreid, meditsiinilise kirje ID-sid ja tosin muud PII kategooriat, mis põhjustavad nõuetekohasuse ebaõnnestumise.
Lünk "Ma anonüümitasin e-postid" ja "see andmestik on GDPR-i nõuetekohasel ML-treeningu jaoks" on suur, oluline ja regulaarselt alahinnatud.
Miks GDPR Piirab ML-Treeningandmete Kasutamist
GDPR eesmärgipiiramise põhimõte (artikkel 5(1)(b)) nõuab, et isikuandmed kogutaks määratud, otseselt ja seaduslikult eesmärkidel ja neid ei töödeldaks viisil, mis on vastuolus nende eesmärkidega.
Kliendi andmed, mis koguti tellimuste täitmiseks, ei olnud kogutud soovituse mudeli treenimise eesmärgil. Tervishoiu kirje andmed, mis koguti raviks, ei olnud kogutud lugemisprognoos mudeli treenimise eesmärgil. Uuringu vastuse andmed, mis koguti toote tagasisideks, ei olnud kogutud tundeanalüüsi mudeli treenimiseks.
Selle andmete ML-treeningu kasutamine nõuab kas:
- Otsene nõusolekut iga andmete subjektilt ML-treeningu eesmärgil (operatsiooniliselt keeruline, sageli võimatu tagasiulatuvalt)
- Seaduslik huvi hinnang, mis näitab treenimise eesmärgi õiguspärasust ...