Jedna skripta nije dovoljna
Svaki tim podatkovnih znanstvenika napisao je nesto ovako:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Ovo zamjenjuje adrese elektronicke poste. To je sve sto radi. Skup podataka i dalje sadrzi imena, brojeve telefona i medicinske identifikatore. I dalje nece proci GDPR reviziju.
Jaz izmedju "anonimizirao sam adrese e-poste" i "ovaj skup podataka je GDPR-sukladan" je velik. Timovi ga uvijek podcjenjuju.
Zasto GDPR ogranicava koristenje podataka za ML trening
GDPR clanak 5(1)(b) je kljucno pravilo. Naziva se nacelo ogranicenja svrhe. Osobni podaci smiju se koristiti samo za svrhu za koju su prikupljeni.
Narudzbe kupaca prikupljene su za ispunjenje narudzbe. Ne za trening modela preporuka. Zdravstveni kartoni prikupljeni su radi lijecenja. Ne za trening modela ponovnog prijema. Odgovori na ankete prikupljeni su radi povratnih informacija o proizvodu. Ne za trening klasifikatora sentimenta.
Za koristenje tih podataka za ML trening, timu je potrebno jedno od tri:
- Izricita suglasnost svake osobe za ML svrhu - tesko je dobiti, cesto nemoguce retroaktivno
- Procjena legitimnog interesa koja pokazuje da je ML koristenje kompatibilno - pravno nesigurno, ovisno o DPA
- Anonimizacija - zamjena ili uklanjanje osobnih podataka kako skup podataka vise ne bi bio osoban prema GDPR-u
Pravilna anonimizacija pruzaju najvecu pravnu sigurnost. Izazov je to raditi ispravno svaki put.
Problem s jednokratnim skriptama
Timovi koji pisu novu Python skriptu za svaki skup podataka stvaraju nagomilane probleme.
Nepotpuno pokrivanje. Skripta napravljena za jednu shemu propusta nova polja. Stupac biljesaka iz klinicke prakse dodan prije sest mjeseci? Nije u regexu. Polje za srednje ime? Skripta obradjuje samo obrasce za ime i prezime.
Nema dosljednosti. Skup podataka A obradjivala je skripta_v1. Skup B koristio je skripta_v3. Skup C obradio je drugi clan tima. Objedinjeni skup za trening ima tri razlicite primijenjene metode. Sluzbenik za zastitu podataka (DPO) to ne moze certificirati.
Nema revizijskog traga. Skripta je pokrenuta. Sto je promijenila? Koji entiteti su pronadjeni? Bez zapisa o obradi, uskladjenost je nemoguca. Kad revizor DPA pita "kako znate da je ovaj skup za trening cist?", odgovor "pokrenuli smo Python skriptu" nije dovoljan.
Drift modela. Regex uzorci koji su radili 2023. propustaju nove formate identifikatora iz 2024. Skripte se ne azuriraju same od sebe.
Primjer grupne obrade
Tim za AI u zdravstvenom sektoru treba anonimizirati 8.000 pacijentskih kartona. Amerieki tim treba pristup iz EU ureda. Primjenjuje se Schrems II - zapisi podrijetlom iz EU ne mogu ici u americku infrastrukturu bez odgovarajucih zastita.
Tradicionalni put: Inzenjer podataka pise prilagodljenu skriptu. Dva do tri dana razvoja. Jedan do dva dana DPO pregleda. Jedan dan iteracije. Ukupno: cetiri do sest dana. ML projekt kasni.
Put grupne obrade:
- Izvezite 8.000 zapisa kao CSV
- Prenesite u grupnu obradu
- Postavite vrste entiteta: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Odaberite metodu: Replace (zamjenjuje realisticnim sintetickim vrijednostima radi ocuvanja strukture)
- Obrada: 45 minuta za 8.000 zapisa
- Preuzmite cisti CSV
- DPO pregledava metapodatke obrade - pronadjeni entiteti po zapisu, primijenjene metode: 2 sata
- DPO odobrava. Prijenos se nastavlja.
Ukupno vrijeme: 45 minuta plus 2 sata DPO pregleda. Umjesto cetiri do sest dana.
Pogledajte vodic za trening podataka prema EU AI Aktu za iste korake koji zadovoljavaju obveze iz clanka 10.
Replace vs. Redact za ML primjenu
Metoda anonimizacije utjece na kvalitetu modela.
Redact zamjenjuje PII tokenima poput [REDACTED]. To funkcionira za modele detekcije PII-a. Za ostale zadatke - sentiment, klasifikaciju, preporuke - steti. Model uci da je [REDACTED] poseban token. Ne moze uciti iz prirodne distribucije imena i vrijednosti.
Replace zamjenjuje "Ivan Horvat" s "Marko Novak". Zamjenjuje "ihorvat@tvrtka.com" s "mnovak@sinteticki.com". Struktura ostaje netaknuta. Smjestaj entiteta, uzorci supojavljivanja, tok recenice - sve je ocuvano. Model uci iz realisticnog konteksta.
Za ML skupove podataka za trening, Replace je pravi izbor. Model ne uci lazne vrijednosti. Uci uzorke oko njih. To je ono sto je vazno.
Schrems II i prekogranicni prijenosi
Presuda Schrems II (CJEU, 2020.) ponistila je EU-US Privacy Shield. Zapisi podrijetlom iz EU ne mogu ici u americku ML infrastrukturu - AWS US-East, GCP US-Central - bez odgovarajucih zastita prijenosa.
Tri glavne zastite su:
- Standardne ugovorne klauzule s Procjenom utjecaja prijenosa
- Obvezujuca korporativna pravila za prijenose unutar grupe tvrtki
- Iznimka za anonimizirane zapise - pravilno anonimizirane datoteke vise nisu osobne prema GDPR-u i izuzete su od pravila prijenosa
Za timove koji koriste americku infrastrukturu s EU skupovima, pravilna anonimizacija uklanja problem Schremsa II. Cisti skup podataka nije osoban. Moze se slobodno premjestati.
Ovo je jedna od najjacih prakticnih prednosti grupne anonimizacije. Ona ne samo zadovoljava GDPR. Potpuno uklanja prekogranicno trenje.
Za vise o ogranicenjima prijenosa, pogledajte vodic o ogranicenju svrhe prema GDPR-u.
Sto predati DPO-u
Prilikom predaje cistog skupa za trening DPO-u na odobrenje, ukljucite ovih pet stavki:
- Opis izvora. Koji je bio originalni skup podataka? Koja je bila svrha prikupljanja? Koje osobne kategorije je sadrzavao?
- Konfiguracija anonimizacije. Koje vrste entiteta su otkrivene i zamijenjene? Koja je metoda primijenjena?
- Metapodaci obrade. Broj entiteta po zapisu, ocjene pouzdanosti, ukupan broj obradjenih zapisa.
- Procjena rezidualnog rizika. Kolika je sansa da bi neka osoba mogla biti reidentificirana? Za anonimizaciju metodom Replace s 285+ vrsta entiteta na strukturiranom tekstu, ta je vjerojatnost vrlo niska.
- Namjeravana koristenje. Koji ce model biti treniran? Koja je svrha treninga?
Grupna obrada automatski pruzaju stavke 2 i 3. Stavke 1, 4 i 5 dolaze od podatkovnog znanstvenika.
Pogledajte anonym.legal batch API za nacin na koji se metapodaci obrade vracaju uz svaki posao.
Sto dobivate
GDPR-sukladni ML skupovi su ostvarivi bez prilagodljenih skripti, bez visednevnih kasnjenja i bez gubitka kvalitete modela.
Metoda Replace cuva svojstva prirodnog jezika koja su vazna za NLP trening. Uklanja osobne podatke koji stvaraju GDPR rizik.
45 minuta grupne obrade razlika je izmedju odgodene revizije uskladjenosti i jednostavnog DPO odobrenja.