Til baka á BloggTæknilegt

GDPR-samhæf ML þjálfunargögn: Dulrita 10.000 skrár án...

GDPR takmarkar notkun persónuupplýsinga til ML þjálfunar utan upprunalegs tilgangs innsamlingar.

April 20, 20267 mín lestur
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-samhæf ML þjálfunargögn: Dulrita 10.000 skrár án þess að skrifa kóða

Hver gagnafræðiteymi sem keyrir GDPR-undirlagð gögn hefur skrifað einhverja útgáfu af þessari forritun:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

Þetta er ekki GDPR samræmi. Það er einungis endurnöfnun tölvupóstfönga. Gagnasafnið inniheldur enn nöfn, sími, læknisfræðileg skráarkenni og tíu önnur PII-flokka sem munu valda samræmisbilum.

Bilið á milli "ég dulrita tölvupóstana" og "þessi gagnasafn er GDPR-samhæft fyrir ML þjálfun" er stórt, þýðingarmikið og reglulega vanmetin.

Af hverju GDPR takmarkar ML þjálfunargagna notkun

GDPR tilgangstakmarkunarreglan (grein 5(1)(b)) segir að persónuupplýsingum megi safna fyrir tilteknum, skýrum og lögmætum tilgangi og ekki endurvinnsla á þeim á þann hátt sem er ósamrýmanlegt þeim tilgangi.

Gögn viðskiptavina sem safnað var fyrir uppfyllingu pöntunar voru ekki söfnuð í þeim tilgangi að þjálfa tillöguflokk. Heilbrigðisgögn sem söfnuð voru til meðferðar voru ekki söfnuð fyrir þeim tilgangi að þjálfa spálíkan fyrir endurinngöngu. Svöraun gögn sem söfnuð voru fyrir vöruviðbrögðum voru ekki söfnuð í þeim tilgangi að þjálfa tilfinningagreiningu.

Notkun þessara gagna til ML þjálfunar krefst annað hvort:

  1. Skýrt samþykki frá hverjum gagnaaðila fyrir ML þjálfunartilganginn (rekstrarlega flókið, oft ómögulegt að afturköllu)
  2. Lögmætis hagsmunir úttekt sem sýnir að þjálfunartilgangur

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.