En skript ni dovolj
Vsaka ekipa podatkovnih znanstvenikov je ze napisala nekaj takega:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
To zamenja e-postne naslove. To je vse, kar naredi. Nabor podatkov se vedno vsebuje imena, telefonske stevilke in medicinske ID-je. Se vedno bo padel na reviziji GDPR.
Vrzel med "anonimiziral sem e-postne naslove" in "ta nabor podatkov je skladen z GDPR" je velika. Ekipe jo podcenjujejo ves cas.
Zakaj GDPR omejuje ucenje ML
Clen 5(1)(b) GDPR je kljucno pravilo. Imenuje se nacelo omejitve namena. Osebne evidence se smejo uporabiti samo za namen, za katerega so bile zbrane.
Naroci kupcev so bili zbrani za izpolnitev narocil. Ne za ucenje modela priporocil. Zdravstveni kartoni so bili zbrani za zdravljenje. Ne za ucenje modela ponovnih sprejemov. Odgovori na ankete so bili zbrani za povratne informacije o izdelku. Ne za ucenje klasifikatorja custvene naravnanosti.
Za uporabo teh evidenc za ucenje ML ekipa potrebuje eno od treh stvari:
- Izrecno soglasje vsake osebe za namen ML - tezko ga je dobiti, pogosto nemogoce naknadno
- Oceno zakonitega interesa, ki pokazuje, da je uporaba ML zduzljiva - pravno negotovo, odvisno od nadzornega organa
- Anonimizacijo - zamenjavo ali odstranitev osebnih podatkov, tako da nabor podatkov po GDPR vec ni oseben
Pravilna anonimizacija daje najvecjo pravno gotovost. Izziv je pravilno izvesti vsak krat.
Problem z enkratnimi skripti
Ekipe, ki pisejo nov Python skript za vsak nabor podatkov, ustvarjajo sestavljene tezave.
Nepopolna pokritost. Skript, zgrajen za eno shemo, zamudi nova polja. Stolpec klinicnih opomb, dodan pred sestimi meseci? Ni v regularnem izrazu. Polje srednje ime? Skript obravnava samo vzorce prvega in priimka.
Brez doslednosti. Nabor podatkov A je bil obdelan s skript_v1. Nabor podatkov B je uporabil skript_v3. Nabor podatkov C je obdelal drug clan ekipe. Zdruzen nabor ucnih podatkov ima tri razlicne metode. Pooblascena oseba za varstvo podatkov (DPO) tega ne more potrditi.
Brez revizijske sledi. Skript se je zagnal. Kaj je spremenil? Katere entitete so bile najdene? Brez evidenc obdelave je skladnost nemogoca. Ko revizor nadzornega organa vprase "kako veste, da je ta ucni nabor cist?", odgovor "pognali smo Python skript" ni dovolj.
Zastarevanje modela. Vzorci regularnih izrazov, ki so delovali leta 2023, prezrejo nove formate identifikatorjev iz leta 2024. Skripti se ne posodabljajo sami.
Vodic za paketno obdelavo
Ekipa za zdravstveno umetno inteligenco mora anonimizirati 8.000 evidenc pacientov. Americka ekipa potrebuje dostop iz pisarne v EU. Velja Schrems II - evidence iz EU ne morejo iti na infrastrukturo v ZDA brez ustreznih varovalk.
Tradicionalna pot: Podatkovni inzenir napise skript po meri. Dva do tri dni razvoja. En do dva dneva pregleda DPO. En dan iteracije. Skupaj: stiri do sest dni. Projekt ML se zamakne.
Pot paketne obdelave:
- Izvoz 8.000 evidenc v CSV
- Nalozitev v paketno obdelavo
- Nastavitev vrst entitet: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Izbira metode: Replace (zamenja realisticne sinteticne vrednosti za ohranitev strukture)
- Obdelava: 45 minut za 8.000 evidenc
- Prenos cistega CSV-ja
- DPO pregleda metapodatke obdelave - najdene entitete na evidenco, uporabljene metode: 2 uri
- DPO odobri. Prenos se nadaljuje.
Skupni cas: 45 minut plus 2 uri pregleda DPO. Namesto stiri do sest dni.
Glejte vodic za ucne podatke EU AI Act za to, kako isti koraki izpolnjujejo obveznosti po clenu 10.
Replace vs. Redact za uporabo ML
Metoda anonimizacije je pomembna za kakovost modela.
Redact nadomesti osebne podatke z znakom, kot je [REDACTED]. To deluje za modele zaznavanja osebnih podatkov. Za druge naloge - custveno analizo, klasifikacijo, priporocila - skoduje. Model se nauci, da je [REDACTED] posebna znacka. Ne more se uciti iz naravne porazdelitve imen in vrednosti.
Replace zamenja "Janez Novak" z "David Chen." Zamenja "jnovak@podjetje.com" z "dchen@synthetic.com." Struktura ostane nedotaknjena. Postavitev entitet, vzorci so-pojavljanja, tok stavkov - vse je ohranjeno. Model se uci iz realnega konteksta.
Za ucne nabore ML je Replace prava izbira. Model se ne nauci laznih vrednosti. Nauci se vzorcev okoli njih. To je tisto, kar je pomembno.
Schrems II in cezmejna prenosenja
Sodba Schrems II (CJEU, 2020) je razveljavila EU-US Privacy Shield. Evidence iz EU ne morejo iti na infrastrukturo ML v ZDA - AWS US-East, GCP US-Central - brez ustreznih prenosnih varovalk.
Tri glavne varovalke so:
- Standardne pogodbene klavzule z oceno vpliva prenosa
- Zavezujoca korporacijska pravila za prenose znotraj poslovne skupine
- Izjema za anonimizirane evidence - pravilno anonimizirane datoteke po GDPR niso vec osebne in so izvzete iz pravil prenosa
Za ekipe, ki uporabljajo infrastrukturo v ZDA z nabori iz EU, pravilna anonimizacija odstrani problem Schrems II. Cist nabor podatkov ni oseben. Prosto se premika.
To je ena najmocnejsih prakticnih prednosti paketne anonimizacije. Ne zadosti samo GDPR. Popolnoma odpravlja cezmejna trenja.
Vec o omejitvah prenosa glejte v vodicU za omejitev namena GDPR.
Kaj dati DPO
Pri predlozitvi cistega ucnega nabora za odobritev DPO prilozte teh pet elementov:
- Opis vira. Kaj je bil prvotni nabor podatkov? Kaksna je bila namen zbiranja? Katere osebne kategorije je vseboval?
- Konfiguracija anonimizacije. Katere vrste entitet so bile zaznane in nadomesCene? Katera metoda je bila uporabljena?
- Metapodatki obdelave. Stevilo entitet na evidenco, zanesljivostni rezultati, skupno stevilo obdelanih evidenc.
- Ocena preostalega tveganja. Kaksna je verjetnost, da bi se katera koli oseba ponovno identificirala? Za anonimizacijo z metodo Replace z 285+ vrstami entitet na strukturiranem besedilu je ta verjetnost zelo majhna.
- Predvidena uporaba. Kateri model bo ucen? Kaksna je namen ucenja?
Paketna obdelava samodejno zagotavlja tocke 2 in 3. Tocke 1, 4 in 5 prispeva podatkovni znanstvenik.
Glejte paketni API anonym.legal za to, kako so metapodatki obdelave vrnjeni z vsako nalogo.
Kaj pridobite
Nabori ML, skladni z GDPR, so dosegljivi brez skriptov po meri, brez vecdnevnih zakasnitev in brez izgube kakovosti modela.
Metoda Replace ohranja lastnosti naravnega jezika, ki so pomembne za ucenje NLP. Odstrani osebne podatke, ki ustvarjajo tveganje GDPR.
45 minut paketne obdelave je razlika med zakasnjenimi pregledi skladnosti in enostavno odobritvijo DPO.