GDPR-samhæf ML þjálfunargögn: Dulrita 10.000 skrár án þess að skrifa kóða
Hver gagnafræðiteymi sem keyrir GDPR-undirlagð gögn hefur skrifað einhverja útgáfu af þessari forritun:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)
Þetta er ekki GDPR samræmi. Það er einungis endurnöfnun tölvupóstfönga. Gagnasafnið inniheldur enn nöfn, sími, læknisfræðileg skráarkenni og tíu önnur PII-flokka sem munu valda samræmisbilum.
Bilið á milli "ég dulrita tölvupóstana" og "þessi gagnasafn er GDPR-samhæft fyrir ML þjálfun" er stórt, þýðingarmikið og reglulega vanmetin.
Af hverju GDPR takmarkar ML þjálfunargagna notkun
GDPR tilgangstakmarkunarreglan (grein 5(1)(b)) segir að persónuupplýsingum megi safna fyrir tilteknum, skýrum og lögmætum tilgangi og ekki endurvinnsla á þeim á þann hátt sem er ósamrýmanlegt þeim tilgangi.
Gögn viðskiptavina sem safnað var fyrir uppfyllingu pöntunar voru ekki söfnuð í þeim tilgangi að þjálfa tillöguflokk. Heilbrigðisgögn sem söfnuð voru til meðferðar voru ekki söfnuð fyrir þeim tilgangi að þjálfa spálíkan fyrir endurinngöngu. Svöraun gögn sem söfnuð voru fyrir vöruviðbrögðum voru ekki söfnuð í þeim tilgangi að þjálfa tilfinningagreiningu.
Notkun þessara gagna til ML þjálfunar krefst annað hvort:
- Skýrt samþykki frá hverjum gagnaaðila fyrir ML þjálfunartilganginn (rekstrarlega flókið, oft ómögulegt að afturköllu)
- Lögmætis hagsmunir úttekt sem sýnir að þjálfunartilgangur