Üks skript ei piisa

Igal andmeteaduse meeskonnal on kirjutatud midagi sellist:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

See asendab e-posti aadressid. Ainult selle. Andmestik sisaldab ikka nimesid, telefoninumbreid ja meditsiinilisi ID-sid. See ei läbi GDPR-auditit.

Lõhe "anonüümiseerisin e-kirjad" ja "see andmestik vastab GDPR-ile" vahel on suur. Meeskonnad alahindavad seda pidevalt.

GDPR artikkel 5(1)(b) on põhireegel. Seda nimetatakse eesmärgi piirangu põhimõtteks. Isikuandmeid võib kasutada ainult selleks eesmärgiks, milleks need koguti.

Kliendi tellimused koguti tellimuse täitmiseks. Mitte soovitusemudeli treenimiseks. Tervisearvestused koguti ravi jaoks. Mitte haiglasse lubamise mudeli treenimiseks. Uuringu vastused koguti tootetagasiside jaoks. Mitte sentimendiklassifikaatori treenimiseks.

Nende andmete kasutamiseks ML-treeninguks vajab meeskond ühte kolmest asjast:

Iga isiku selgesõnaline nõusolek ML-eesmärgil - raske saada, sageli tagasiulatuvalt võimatu
Õigustatud huvi hinnang, mis näitab, et ML-kasutus on ühilduv - juriidiliselt ebakindel, sõltub andmekaitseametist
Anonüümiseerimine - isikuandmete asendamine või eemaldamine nii, et andmestik ei ole GDPR all enam isiklik

Korralik anonüümiseerimine annab kõige suurema õigusliku kindluse. Väljakutse on teha seda iga kord õigesti.

Ühekordse skriptiga seotud probleemid

Meeskonnad, kes kirjutavad iga andmestiku jaoks uue Pythoni skripti, tekitavad kuhjuvaid probleeme.

Puudulik katvus. Ühe skeemi jaoks ehitatud skript jätab uued väljad vahele. Kliiniline märkmete veerg, mis lisati kuus kuud tagasi? Pole regexis. Keskmise nime väli? Skript käsitleb ainult ees- ja perekonnanime mustreid.

Järjepidevuse puudumine. Andmestik A töödeldi skript_v1-ga. Andmestik B kasutas skript_v3. Andmestik C töödeldi teise meeskonnaliikme poolt. Ühendatud treeningkomplektil on rakendatud kolm erinevat meetodit. DPO ei saa seda sertifitseerida.

Auditijälg puudub. Skript käivitus. Mida see muutis? Milliseid olemeid leiti? Ilma töötlemisandmeteta on vastavus võimatu. Kui andmekaitseameti audiitor küsib "kuidas te teate, et see treeningkomplekt on puhas?", ei piisa vastusest "käivitasime Pythoni skripti".

Mudeli kõikumine. Regex-mustrid, mis toimisid 2023. aastal, jätavad vahele 2024. aasta uued identifikaatorivormingud. Skriptid ei uuendu ise.

Pakktöötlemise läbivaatusnäide

Tervishoiu AI-meeskond peab anonüümiseerima 8000 patsiendi andmet. USA meeskond vajab juurdepääsu EL-i kontorist. Schrems II kehtib - EL-i päritolu andmeid ei saa saata USA infrastruktuuri nõuetekohaste kaitsemeetmeteta.

Traditsiooniline tee: Andmeinsener kirjutab kohandatud skripti. Kaks kuni kolm päeva arendust. Üks kuni kaks päeva DPO ülevaatust. Üks päev iteratsiooni. Kokku: neli kuni kuus päeva. ML-projekt nihkub.

Pakktöötlemise tee:

Ekspordi 8000 kirjet CSV-na
Laadi üles pakktöötlusse
Sea olemite tüübid: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Vali meetod: Asenda (asendab realistlike sünteetiliste väärtustega, säilitades struktuuri)
Töötlemine: 45 minutit 8000 kirje jaoks
Laadi alla puhas CSV
DPO vaatab üle töötlemise metaandmed - leitud olemid kirje kohta, rakendatud meetodid: 2 tundi
DPO kinnitab. Ülekanne toimub.

Koguaeg: 45 minutit pluss 2 tundi DPO ülevaatust. Nelja kuni kuue päeva asemel.

Vaata EL AI akti treeningjuhendit, kuidas samad sammud rahuldavad artikli 10 kohustusi.

Asenda vs. Redakteeri ML-kasutuse jaoks

Anonüümiseerimismeetod on mudeli kvaliteedi jaoks oluline.

Redakteerimine asendab isikuandmed märgiga nagu [REDACTED]. See sobib isikuandmete tuvastamise mudelitele. Muude ülesannete jaoks - sentimentanalüüs, klassifitseerimine, soovitused - kahjustab see mudeli kvaliteeti. Mudel õpib, et [REDACTED] on erimärk. See ei suuda õppida nimede ja väärtuste loomulikust jaotusest.

Asendamine vahetab "Jaan Tamm" välja "David Chen" vastu. Vahetab "jsmith@company.com" välja "dchen@synthetic.com" vastu. Struktuur jääb puutumatuks. Olemite paigutus, kaassageduse mustrid, lausevoog - kõik säilib. Mudel õpib realistlikust kontekstist.

ML-treeningkomplektide jaoks on asendamine õige valik. Mudel ei õpi võltsitud väärtusi. See õpib nende ümbritsevaid mustreid. See on see, mis loeb.

Schrems II ja piiriülesed ülekanded

Schrems II otsus (Euroopa Kohus, 2020) tühistas EL-USA Privacy Shieldi. EL-i päritolu andmeid ei saa saata USA ML-infrastruktuuri - AWS US-East, GCP US-Central - nõuetekohaste ülekandmise kaitsemeetmeteta.

Kolm peamist kaitsemeedet on:

Standardsed lepingutingimused koos ülekande mõjuhinnanguga
Siduvad ettevõtte reeglid ettevõttegrupi siseste ülekannete jaoks
Erand anonüümiseeritud andmetele - nõuetekohaselt anonüümiseeritud failid ei ole GDPR all enam isiklikud ja on ülekandereeglitest vabastatud

Ameerika Ühendriikide infrastruktuuri kasutavatele meeskondadele EL-i päritolu andmestike puhul eemaldab nõuetekohane anonüümiseerimine Schrems II probleemi. Puhas andmestik ei ole isiklik. See võib vabalt liikuda.

See on pakktöötluse üks tugevamaid praktilisi eeliseid. See ei rahulda ainult GDPR-i. See eemaldab piiriülese hõõrdumise täielikult.

Lisateavet ülekandepiirangute kohta vaata GDPR eesmärgi piirangu juhendist.

Mida anda DPO-le

Puhta treeningkomplekti DPO kinnitamiseks esitamisel lisa need viis elementi:

Allika kirjeldus. Mis oli algne andmestik? Mis oli kogumise eesmärk? Milliseid isiklikke kategooriaid see sisaldas?
Anonüümiseerimise konfiguratsioon. Milliseid olemite tüüpe tuvastati ja asendati? Millist meetodit rakendati?
Töötlemise metaandmed. Olemite arv kirje kohta, usaldusskoorid, töödeldud kirjete koguarv.
Jääkriski hinnang. Kui suur on tõenäosus, et mõnda isikut saab taasidentifitseerida? Asendamismeetodi anonüümiseerimiseks 285+ olemitüübiga struktureeritud teksti puhul on see tõenäosus väga väike.
Kavandatav kasutus. Millist mudelit treenitakse? Mis on treeningu eesmärk?

Pakktöötlus pakub punkte 2 ja 3 automaatselt. Punktid 1, 4 ja 5 pärinevad andmeteadlaselt.

Vaata anonym.legal pakk-API-t, kuidas töötlemise metaandmed iga töö kohta tagastatakse.

Mida sa saad

GDPR-nõuetele vastavad ML-komplektid on saavutatavad ilma kohandatud skriptideta, ilma mitme päevase viivituseta ja ilma mudeli kvaliteeti kaotamata.

Asendamismeetod säilitab loomulikud keeleomadused, mis on NLP-treeningu jaoks olulised. See eemaldab isikuandmed, mis tekitavad GDPR-riski.

45 minutit pakktöötlust on erinevus hilinenud vastavuse ülevaatuse ja sirgjoonelise DPO kinnitamise vahel.

Allikad

Seotud Artiklid

Tehniline

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

Alusta Tasuta Katset Vaata Funktsioone

GDPR-nõuetele vastav ML treeningandmete anonüümiseerimine

Üks skript ei piisa

Ühekordse skriptiga seotud probleemid

Pakktöötlemise läbivaatusnäide

Asenda vs. Redakteeri ML-kasutuse jaoks

Schrems II ja piiriülesed ülekanded

Mida anda DPO-le

Mida sa saad

Allikad

Seotud Artiklid

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Kas olete valmis oma andmeid kaitsma?

GDPR-nõuetele vastav ML treeningandmete anonüümiseerimine

Üks skript ei piisa

Miks GDPR piirab ML-treeningut

Ühekordse skriptiga seotud probleemid

Pakktöötlemise läbivaatusnäide

Asenda vs. Redakteeri ML-kasutuse jaoks

Schrems II ja piiriülesed ülekanded

Mida anda DPO-le

Mida sa saad

Allikad

Seotud Artiklid

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Kas olete valmis oma andmeid kaitsma?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow