Jedna skripta nije dovoljna
Svaki tim naucnika podataka napisao je nesto ovako:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Ovo zamenjuje adrese elektronske poste. Samo to. Skup podataka i dalje sadrzi imena, brojeve telefona i medicinske ID-ove. I dalje nece proci GDPR reviziju.
Jaz izmedju "anonimizovao sam mejlove" i "ovaj skup podataka je GDPR-kompatibilan" je velik. Timovi ga stalno potcenjuju.
Zasto GDPR ogranicava upotrebu podataka za ML treniranje
GDPR clan 5(1)(b) je kljucno pravilo. Zove se nacelo ogranicenja svrhe. Licni podaci mogu se koristiti samo u svrhu za koju su prikupljeni.
Porudzbine kupaca prikupljene su radi ispunjenja narudzbina. Ne za treniranje modela preporuka. Zdravstveni kartoni prikupljeni su radi lecenja. Ne za treniranje modela ponovnog prijema. Odgovori na ankete prikupljeni su radi povratnih informacija o proizvodu. Ne za treniranje klasifikatora sentimenta.
Da bi koristili te podatke za ML treniranje, timu je potrebna jedna od tri stvari:
- Eksplicitna saglasnost svake osobe za ML svrhu - tesko je dobiti, cesto nemoguce retroaktivno
- Procena legitimnog interesa koja pokazuje da je ML upotreba kompatibilna - pravno neizvesno, zavisno od DPA
- Anonimizacija - zamena ili uklanjanje licnih detalja tako da skup podataka vise nije licni prema GDPR-u
Pravna anonimizacija pruza najvecu pravnu sigurnost. Izazov je uraditi to ispravno svaki put.
Problem sa jednokratnim skriptama
Timovi koji pisu novu Python skriptu za svaki skup podataka stvaraju kumulativne probleme.
Nepotpuna pokrivenost. Skripta napravljena za jednu semu propusta nova polja. Kolona klinickih beleska dodata pre sest meseci? Nije u regexi. Polje srednjeg imena? Skripta obradjuje samo obrasce prvog i prezimena.
Bez doslednosti. Skup podataka A obradjen je skriptom_v1. Skup podataka B koristio je skriptu_v3. Skup podataka C obradio je drugi clan tima. Objedinjeni skup podataka za treniranje ima tri razlicite primenjene metode. DPO to ne moze da sertifikuje.
Bez revizijskog traga. Skripta je pokrenuta. Sta je promenila? Koji entiteti su pronadjeni? Bez zapisa o obradi, komplijans je nemoguc. Kada DPA revizor pita "kako znate da je ovaj skup podataka za treniranje cistu?", odgovor "pokrenuli smo Python skriptu" nije dovoljan.
Zastarelost modela. Regex obrasci koji su radili u 2023. propustaju nove formate identifikatora iz 2024. Skripte se ne azuriraju same.
Pregled grupne obrade
Healthcare AI tim treba da anonimizuje 8.000 pacijentskih kartona. Americki tim treba pristup iz EU kancelarije. Primenjuje se Schrems II - podaci poreklom iz EU ne mogu ici na americku infrastrukturu bez odgovarajucih zastita.
Tradicionalni put: Inzenjer podataka pise prilagodljenu skriptu. Dva do tri dana razvoja. Jedan do dva dana DPO pregleda. Jedan dan iteracije. Ukupno: cetiri do sest dana. ML projekat kasni.
Put grupne obrade:
- Izvezite 8.000 zapisa kao CSV
- Otpremite na grupnu obradu
- Postavite tipove entiteta: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Izaberite metodu: Replace (zamenjuje realisticnim sintetickim vrednostima radi ocuvanja strukture)
- Obrada: 45 minuta za 8.000 zapisa
- Preuzmite cisti CSV
- DPO pregledava metapodatke obrade - entiteti pronadjeni po zapisu, primenjene metode: 2 sata
- DPO odobrava. Transfer se nastavlja.
Ukupno vreme: 45 minuta plus 2 sata DPO pregleda. Umesto cetiri do sest dana.
Pogledajte vodic za treniranje prema EU AI aktu za nacin na koji isti koraci ispunjavaju obaveze iz clana 10.
Replace vs. Redact za ML upotrebu
Metoda anonimizacije je vazna za kvalitet modela.
Redact zamenjuje PII tokenom kao sto je [REDACTED]. Ovo funkcionise za modele detekcije PII-a. Za druge zadatke - sentiment, klasifikacija, preporuka - to steti. Model uci da je [REDACTED] poseban token. Ne moze da uci iz prirodne distribucije imena i vrednosti.
Replace zamenjuje "Jovan Jovanovic" sa "David Chen." Zamenjuje "jjovanovic@kompanija.com" sa "dchen@synthetic.com." Struktura ostaje netaknuta. Plasiranje entiteta, obrasci ko-pojavljivanja, tok recenice - sve je sacuvano. Model uci iz realisticnog konteksta.
Za skupove podataka za ML treniranje, Replace je pravi izbor. Model ne uci lazne vrednosti. On uci obrasce oko njih. To je ono sto je vazno.
Schrems II i prekogranicni prenosi
Presuda Schrems II (CJEU, 2020) ponistavila je EU-US Privacy Shield. Podaci poreklom iz EU ne mogu ici na americku ML infrastrukturu - AWS US-East, GCP US-Central - bez odgovarajucih zastita prenosa.
Tri glavne zastite su:
- Standardne ugovorne klauzule sa procenom uticaja prenosa
- Obavezujuca korporativna pravila za prenose unutar grupe kompanija
- Derogacija za anonimizirane zapise - pravilno anonimizirani fajlovi vise nisu licni prema GDPR-u i izuzeti su od pravila prenosa
Za timove koji koriste americku infrastrukturu sa skupovima podataka poreklom iz EU, pravilna anonimizacija uklanja Schrems II problem. Cistit skup podataka nije licni. Moze se slobodno prenositi.
Ovo je jedna od najjacih prakticnih prednosti grupne anonimizacije. Ona ne samo da zadovoljava GDPR. Ona potpuno uklanja prepreke prekogranicnog prenosa.
Za vise informacija o ogranicenjima prenosa, pogledajte vodic o ogranicenju svrhe GDPR-a.
Sta predati DPO-u
Prilikomdostavljanja cistog skupa podataka za treniranje na odobrenje DPO-u, ukljucite ovih pet stavki:
- Opis izvora. Koji je bio originalni skup podataka? Koja je bila svrha prikupljanja? Koje licne kategorije je sadrzao?
- Konfiguracija anonimizacije. Koji tipovi entiteta su detektovani i zamenjeni? Koja metoda je primenjena?
- Metapodaci obrade. Broj entiteta po zapisu, skorovi pouzdanosti, ukupan broj obradjenih zapisa.
- Procena rezidualnog rizika. Kolika je verovatnoca da bi neka osoba mogla biti ponovo identifikovana? Za anonimizaciju metodom Replace sa 285+ tipova entiteta na strukturiranom tekstu, ova verovatnoca je veoma niska.
- Nameravana upotreba. Koji model ce biti treniran? Koja je svrha treniranja?
Grupna obrada automatski pruza stavke 2 i 3. Stavke 1, 4 i 5 dolaze od naucnika podataka.
Pogledajte anonym.legal batch API za nacin na koji se metapodaci obrade vracaju sa svakim poslom.
Sta dobijate
GDPR-kompatibilni ML skupovi podataka su ostvarivi bez prilagodljenih skripti, bez visednevnih kascnjenja i bez gubitka kvaliteta modela.
Metoda Replace cuva svojstva prirodnog jezika koja su vazna za NLP treniranje. Ona uklanja licne detalje koji stvaraju GDPR rizik.
45 minuta grupne obrade je razlika izmedju odlozene revizije komplijansa i jednostavnog odobrenja DPO-a.