anonym.legal
Nazaj na blogTehnično

Skladni z GDPR podatki za strojno učenje...

GDPR omejuje uporabo osebnih podatkov za usposabljanje ML drugače kot za prvotni namen zbiranje.

April 19, 20267 min branja
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Skladni z GDPR podatki za strojno učenje: Anonimizacija 10.000 zapisov brez pisanja kode

Vsak tim za znanost podatkov, ki izvaja GDPR-osebne podatke, je napisal različico tega skripta:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

To ni skladnost z GDPR. To je zamenjava e-poštnih naslovov. Nabor podatkov še vedno vsebuje imena, telefonske številke, ID-je zdravstvenih zapisov in ducat drugih kategorij osebnih podatkov, ki bodo povzročili neusklajenje.

Razlika med »sem anonimiziral e-poštne naslove« in »je ta nabor podatkov GDPR-skladen za usposabljanje ML« je velika, posledična in rutinsko podcenjena.

Zakaj GDPR omejuje uporabo podatkov za usposabljanje ML

Načelo omejevanja namena GDPR (člen 5(1)(b)) navaja, da se osebni podatki zbirajo za navedene, izrecne in zakonite namene in se ne obdelujejo na način, ki je nezdružljiv s temi nameni.

Podatki strank, zbrani za izpolnjevanje naročil, niso zbrani v namene usposabljanja modela priporočil. Podatki zdravstvenih zapisov, zbrani za zdravljenje, niso zbrani za usposabljanje modela napovedovanja ponovnega sprejema. Podatki odgovorov na anketo, zbrani za povratne informacije o izdelkih, niso zbrani za usposabljanje modela analize nastrojev.

Uporaba teh podatkov za usposabljanje ML zahteva:

  1. Soglasje vsakega subjekta podatkov za namen usposabljanja ML (delovno zapleteno, pogosto nemogoče retroaktivno)
  2. Ocena legitimnega interesa, ki kaže namen usposabljanja

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.