Усогласена со GDPR машинско учење обука податоци: Анонимизирање 10.000 записи без писање код
Секој тим научници со податоци кој работи GDPR-субјектни податоци има напишано некоја верзија на оваа скрипта:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)
Ово не е GDPR усогласеност. Тоа е замена на адреса за е-пошта. Сетот на податоци сè уште содржи имена, телефонски броеви, ID на медицински записи и десетина други категории на PII кои ќе предизвикаат неусклади со усогласеност.
Пропастта помеѓу "Анонимизирав ги е-маилите" и "овој сет на податоци е усогласен со GDPR за машинско учење" е голема, значајна и редовно недоцена.
Зошто GDPR ограничува користење на обучни податоци за машинско учење
Принципот на ограничување на намена на GDPR (Член 5(1)(b)) наведува дека личните податоци може да бидат собрани за наведени, експлицитни и легитимни намени и не да бидат дополнително обработени на начин кој е неусогласен со тие намени.
Податоците на клиентите собрани за исполнување на нарачки не биле собрани за намена на обука на модел на препоручување. Здравствениот запис собран за лечење не бил собран за обука на модел на предвидување на повторно пријаву. Податоците од анкета собрани за повратни информации за производ не биле собрани за обука на модел за анализа на сентимент.
Користење на овие податоци за машинско учење бара или:
- Експлицитна согласност од секој предмет на податоци за намена на обука за машинско учење (оперативно сложено, често невозможно ретроспективно)
- Легитиман интерес