anonym.legal
Назад на блоготТехнички

Усогласена со GDPR машинско учење обука податоци...

GDPR ограничува корисување на лични податоци за машинско учење надвор од првобитната намена на собирање.

April 20, 20267 мин читање
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Усогласена со GDPR машинско учење обука податоци: Анонимизирање 10.000 записи без писање код

Секој тим научници со податоци кој работи GDPR-субјектни податоци има напишано некоја верзија на оваа скрипта:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Ово не е GDPR усогласеност. Тоа е замена на адреса за е-пошта. Сетот на податоци сè уште содржи имена, телефонски броеви, ID на медицински записи и десетина други категории на PII кои ќе предизвикаат неусклади со усогласеност.

Пропастта помеѓу "Анонимизирав ги е-маилите" и "овој сет на податоци е усогласен со GDPR за машинско учење" е голема, значајна и редовно недоцена.

Зошто GDPR ограничува користење на обучни податоци за машинско учење

Принципот на ограничување на намена на GDPR (Член 5(1)(b)) наведува дека личните податоци може да бидат собрани за наведени, експлицитни и легитимни намени и не да бидат дополнително обработени на начин кој е неусогласен со тие намени.

Податоците на клиентите собрани за исполнување на нарачки не биле собрани за намена на обука на модел на препоручување. Здравствениот запис собран за лечење не бил собран за обука на модел на предвидување на повторно пријаву. Податоците од анкета собрани за повратни информации за производ не биле собрани за обука на модел за анализа на сентимент.

Користење на овие податоци за машинско учење бара или:

  1. Експлицитна согласност од секој предмет на податоци за намена на обука за машинско учење (оперативно сложено, често невозможно ретроспективно)
  2. Легитиман интерес

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.