Jedna skripta nije dovoljna

Svaki tim naucnika podataka napisao je nesto ovako:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Ovo zamenjuje adrese elektronske poste. Samo to. Skup podataka i dalje sadrzi imena, brojeve telefona i medicinske ID-ove. I dalje nece proci GDPR reviziju.

Jaz izmedju "anonimizovao sam mejlove" i "ovaj skup podataka je GDPR-kompatibilan" je velik. Timovi ga stalno potcenjuju.

GDPR clan 5(1)(b) je kljucno pravilo. Zove se nacelo ogranicenja svrhe. Licni podaci mogu se koristiti samo u svrhu za koju su prikupljeni.

Porudzbine kupaca prikupljene su radi ispunjenja narudzbina. Ne za treniranje modela preporuka. Zdravstveni kartoni prikupljeni su radi lecenja. Ne za treniranje modela ponovnog prijema. Odgovori na ankete prikupljeni su radi povratnih informacija o proizvodu. Ne za treniranje klasifikatora sentimenta.

Da bi koristili te podatke za ML treniranje, timu je potrebna jedna od tri stvari:

Eksplicitna saglasnost svake osobe za ML svrhu - tesko je dobiti, cesto nemoguce retroaktivno
Procena legitimnog interesa koja pokazuje da je ML upotreba kompatibilna - pravno neizvesno, zavisno od DPA
Anonimizacija - zamena ili uklanjanje licnih detalja tako da skup podataka vise nije licni prema GDPR-u

Pravna anonimizacija pruza najvecu pravnu sigurnost. Izazov je uraditi to ispravno svaki put.

Problem sa jednokratnim skriptama

Timovi koji pisu novu Python skriptu za svaki skup podataka stvaraju kumulativne probleme.

Nepotpuna pokrivenost. Skripta napravljena za jednu semu propusta nova polja. Kolona klinickih beleska dodata pre sest meseci? Nije u regexi. Polje srednjeg imena? Skripta obradjuje samo obrasce prvog i prezimena.

Bez doslednosti. Skup podataka A obradjen je skriptom_v1. Skup podataka B koristio je skriptu_v3. Skup podataka C obradio je drugi clan tima. Objedinjeni skup podataka za treniranje ima tri razlicite primenjene metode. DPO to ne moze da sertifikuje.

Bez revizijskog traga. Skripta je pokrenuta. Sta je promenila? Koji entiteti su pronadjeni? Bez zapisa o obradi, komplijans je nemoguc. Kada DPA revizor pita "kako znate da je ovaj skup podataka za treniranje cistu?", odgovor "pokrenuli smo Python skriptu" nije dovoljan.

Zastarelost modela. Regex obrasci koji su radili u 2023. propustaju nove formate identifikatora iz 2024. Skripte se ne azuriraju same.

Pregled grupne obrade

Healthcare AI tim treba da anonimizuje 8.000 pacijentskih kartona. Americki tim treba pristup iz EU kancelarije. Primenjuje se Schrems II - podaci poreklom iz EU ne mogu ici na americku infrastrukturu bez odgovarajucih zastita.

Tradicionalni put: Inzenjer podataka pise prilagodljenu skriptu. Dva do tri dana razvoja. Jedan do dva dana DPO pregleda. Jedan dan iteracije. Ukupno: cetiri do sest dana. ML projekat kasni.

Put grupne obrade:

Izvezite 8.000 zapisa kao CSV
Otpremite na grupnu obradu
Postavite tipove entiteta: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Izaberite metodu: Replace (zamenjuje realisticnim sintetickim vrednostima radi ocuvanja strukture)
Obrada: 45 minuta za 8.000 zapisa
Preuzmite cisti CSV
DPO pregledava metapodatke obrade - entiteti pronadjeni po zapisu, primenjene metode: 2 sata
DPO odobrava. Transfer se nastavlja.

Ukupno vreme: 45 minuta plus 2 sata DPO pregleda. Umesto cetiri do sest dana.

Pogledajte vodic za treniranje prema EU AI aktu za nacin na koji isti koraci ispunjavaju obaveze iz clana 10.

Replace vs. Redact za ML upotrebu

Metoda anonimizacije je vazna za kvalitet modela.

Redact zamenjuje PII tokenom kao sto je [REDACTED]. Ovo funkcionise za modele detekcije PII-a. Za druge zadatke - sentiment, klasifikacija, preporuka - to steti. Model uci da je [REDACTED] poseban token. Ne moze da uci iz prirodne distribucije imena i vrednosti.

Replace zamenjuje "Jovan Jovanovic" sa "David Chen." Zamenjuje "jjovanovic@kompanija.com" sa "dchen@synthetic.com." Struktura ostaje netaknuta. Plasiranje entiteta, obrasci ko-pojavljivanja, tok recenice - sve je sacuvano. Model uci iz realisticnog konteksta.

Za skupove podataka za ML treniranje, Replace je pravi izbor. Model ne uci lazne vrednosti. On uci obrasce oko njih. To je ono sto je vazno.

Schrems II i prekogranicni prenosi

Presuda Schrems II (CJEU, 2020) ponistavila je EU-US Privacy Shield. Podaci poreklom iz EU ne mogu ici na americku ML infrastrukturu - AWS US-East, GCP US-Central - bez odgovarajucih zastita prenosa.

Tri glavne zastite su:

Standardne ugovorne klauzule sa procenom uticaja prenosa
Obavezujuca korporativna pravila za prenose unutar grupe kompanija
Derogacija za anonimizirane zapise - pravilno anonimizirani fajlovi vise nisu licni prema GDPR-u i izuzeti su od pravila prenosa

Za timove koji koriste americku infrastrukturu sa skupovima podataka poreklom iz EU, pravilna anonimizacija uklanja Schrems II problem. Cistit skup podataka nije licni. Moze se slobodno prenositi.

Ovo je jedna od najjacih prakticnih prednosti grupne anonimizacije. Ona ne samo da zadovoljava GDPR. Ona potpuno uklanja prepreke prekogranicnog prenosa.

Za vise informacija o ogranicenjima prenosa, pogledajte vodic o ogranicenju svrhe GDPR-a.

Sta predati DPO-u

Prilikomdostavljanja cistog skupa podataka za treniranje na odobrenje DPO-u, ukljucite ovih pet stavki:

Opis izvora. Koji je bio originalni skup podataka? Koja je bila svrha prikupljanja? Koje licne kategorije je sadrzao?
Konfiguracija anonimizacije. Koji tipovi entiteta su detektovani i zamenjeni? Koja metoda je primenjena?
Metapodaci obrade. Broj entiteta po zapisu, skorovi pouzdanosti, ukupan broj obradjenih zapisa.
Procena rezidualnog rizika. Kolika je verovatnoca da bi neka osoba mogla biti ponovo identifikovana? Za anonimizaciju metodom Replace sa 285+ tipova entiteta na strukturiranom tekstu, ova verovatnoca je veoma niska.
Nameravana upotreba. Koji model ce biti treniran? Koja je svrha treniranja?

Grupna obrada automatski pruza stavke 2 i 3. Stavke 1, 4 i 5 dolaze od naucnika podataka.

Pogledajte anonym.legal batch API za nacin na koji se metapodaci obrade vracaju sa svakim poslom.

Sta dobijate

GDPR-kompatibilni ML skupovi podataka su ostvarivi bez prilagodljenih skripti, bez visednevnih kascnjenja i bez gubitka kvaliteta modela.

Metoda Replace cuva svojstva prirodnog jezika koja su vazna za NLP treniranje. Ona uklanja licne detalje koji stvaraju GDPR rizik.

45 minuta grupne obrade je razlika izmedju odlozene revizije komplijansa i jednostavnog odobrenja DPO-a.

Izvori

Povezani članci

Tehnička

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

Započnite besplatnu probu Pogledajte funkcije

GDPR anonimizacija podataka za ML treniranje

Jedna skripta nije dovoljna

Problem sa jednokratnim skriptama

Pregled grupne obrade

Replace vs. Redact za ML upotrebu

Schrems II i prekogranicni prenosi

Sta predati DPO-u

Sta dobijate

Izvori

Povezani članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni da zaštitite svoje podatke?

GDPR anonimizacija podataka za ML treniranje

Jedna skripta nije dovoljna

Zasto GDPR ogranicava upotrebu podataka za ML treniranje

Problem sa jednokratnim skriptama

Pregled grupne obrade

Replace vs. Redact za ML upotrebu

Schrems II i prekogranicni prenosi

Sta predati DPO-u

Sta dobijate

Izvori

Povezani članci

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Spremni da zaštitite svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow