Üks skript ei piisa
Igal andmeteaduse meeskonnal on kirjutatud midagi sellist:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
See asendab e-posti aadressid. Ainult selle. Andmestik sisaldab ikka nimesid, telefoninumbreid ja meditsiinilisi ID-sid. See ei läbi GDPR-auditit.
Lõhe "anonüümiseerisin e-kirjad" ja "see andmestik vastab GDPR-ile" vahel on suur. Meeskonnad alahindavad seda pidevalt.
Miks GDPR piirab ML-treeningut
GDPR artikkel 5(1)(b) on põhireegel. Seda nimetatakse eesmärgi piirangu põhimõtteks. Isikuandmeid võib kasutada ainult selleks eesmärgiks, milleks need koguti.
Kliendi tellimused koguti tellimuse täitmiseks. Mitte soovitusemudeli treenimiseks. Tervisearvestused koguti ravi jaoks. Mitte haiglasse lubamise mudeli treenimiseks. Uuringu vastused koguti tootetagasiside jaoks. Mitte sentimendiklassifikaatori treenimiseks.
Nende andmete kasutamiseks ML-treeninguks vajab meeskond ühte kolmest asjast:
- Iga isiku selgesõnaline nõusolek ML-eesmärgil - raske saada, sageli tagasiulatuvalt võimatu
- Õigustatud huvi hinnang, mis näitab, et ML-kasutus on ühilduv - juriidiliselt ebakindel, sõltub andmekaitseametist
- Anonüümiseerimine - isikuandmete asendamine või eemaldamine nii, et andmestik ei ole GDPR all enam isiklik
Korralik anonüümiseerimine annab kõige suurema õigusliku kindluse. Väljakutse on teha seda iga kord õigesti.
Ühekordse skriptiga seotud probleemid
Meeskonnad, kes kirjutavad iga andmestiku jaoks uue Pythoni skripti, tekitavad kuhjuvaid probleeme.
Puudulik katvus. Ühe skeemi jaoks ehitatud skript jätab uued väljad vahele. Kliiniline märkmete veerg, mis lisati kuus kuud tagasi? Pole regexis. Keskmise nime väli? Skript käsitleb ainult ees- ja perekonnanime mustreid.
Järjepidevuse puudumine. Andmestik A töödeldi skript_v1-ga. Andmestik B kasutas skript_v3. Andmestik C töödeldi teise meeskonnaliikme poolt. Ühendatud treeningkomplektil on rakendatud kolm erinevat meetodit. DPO ei saa seda sertifitseerida.
Auditijälg puudub. Skript käivitus. Mida see muutis? Milliseid olemeid leiti? Ilma töötlemisandmeteta on vastavus võimatu. Kui andmekaitseameti audiitor küsib "kuidas te teate, et see treeningkomplekt on puhas?", ei piisa vastusest "käivitasime Pythoni skripti".
Mudeli kõikumine. Regex-mustrid, mis toimisid 2023. aastal, jätavad vahele 2024. aasta uued identifikaatorivormingud. Skriptid ei uuendu ise.
Pakktöötlemise läbivaatusnäide
Tervishoiu AI-meeskond peab anonüümiseerima 8000 patsiendi andmet. USA meeskond vajab juurdepääsu EL-i kontorist. Schrems II kehtib - EL-i päritolu andmeid ei saa saata USA infrastruktuuri nõuetekohaste kaitsemeetmeteta.
Traditsiooniline tee: Andmeinsener kirjutab kohandatud skripti. Kaks kuni kolm päeva arendust. Üks kuni kaks päeva DPO ülevaatust. Üks päev iteratsiooni. Kokku: neli kuni kuus päeva. ML-projekt nihkub.
Pakktöötlemise tee:
- Ekspordi 8000 kirjet CSV-na
- Laadi üles pakktöötlusse
- Sea olemite tüübid: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Vali meetod: Asenda (asendab realistlike sünteetiliste väärtustega, säilitades struktuuri)
- Töötlemine: 45 minutit 8000 kirje jaoks
- Laadi alla puhas CSV
- DPO vaatab üle töötlemise metaandmed - leitud olemid kirje kohta, rakendatud meetodid: 2 tundi
- DPO kinnitab. Ülekanne toimub.
Koguaeg: 45 minutit pluss 2 tundi DPO ülevaatust. Nelja kuni kuue päeva asemel.
Vaata EL AI akti treeningjuhendit, kuidas samad sammud rahuldavad artikli 10 kohustusi.
Asenda vs. Redakteeri ML-kasutuse jaoks
Anonüümiseerimismeetod on mudeli kvaliteedi jaoks oluline.
Redakteerimine asendab isikuandmed märgiga nagu [REDACTED]. See sobib isikuandmete tuvastamise mudelitele. Muude ülesannete jaoks - sentimentanalüüs, klassifitseerimine, soovitused - kahjustab see mudeli kvaliteeti. Mudel õpib, et [REDACTED] on erimärk. See ei suuda õppida nimede ja väärtuste loomulikust jaotusest.
Asendamine vahetab "Jaan Tamm" välja "David Chen" vastu. Vahetab "jsmith@company.com" välja "dchen@synthetic.com" vastu. Struktuur jääb puutumatuks. Olemite paigutus, kaassageduse mustrid, lausevoog - kõik säilib. Mudel õpib realistlikust kontekstist.
ML-treeningkomplektide jaoks on asendamine õige valik. Mudel ei õpi võltsitud väärtusi. See õpib nende ümbritsevaid mustreid. See on see, mis loeb.
Schrems II ja piiriülesed ülekanded
Schrems II otsus (Euroopa Kohus, 2020) tühistas EL-USA Privacy Shieldi. EL-i päritolu andmeid ei saa saata USA ML-infrastruktuuri - AWS US-East, GCP US-Central - nõuetekohaste ülekandmise kaitsemeetmeteta.
Kolm peamist kaitsemeedet on:
- Standardsed lepingutingimused koos ülekande mõjuhinnanguga
- Siduvad ettevõtte reeglid ettevõttegrupi siseste ülekannete jaoks
- Erand anonüümiseeritud andmetele - nõuetekohaselt anonüümiseeritud failid ei ole GDPR all enam isiklikud ja on ülekandereeglitest vabastatud
Ameerika Ühendriikide infrastruktuuri kasutavatele meeskondadele EL-i päritolu andmestike puhul eemaldab nõuetekohane anonüümiseerimine Schrems II probleemi. Puhas andmestik ei ole isiklik. See võib vabalt liikuda.
See on pakktöötluse üks tugevamaid praktilisi eeliseid. See ei rahulda ainult GDPR-i. See eemaldab piiriülese hõõrdumise täielikult.
Lisateavet ülekandepiirangute kohta vaata GDPR eesmärgi piirangu juhendist.
Mida anda DPO-le
Puhta treeningkomplekti DPO kinnitamiseks esitamisel lisa need viis elementi:
- Allika kirjeldus. Mis oli algne andmestik? Mis oli kogumise eesmärk? Milliseid isiklikke kategooriaid see sisaldas?
- Anonüümiseerimise konfiguratsioon. Milliseid olemite tüüpe tuvastati ja asendati? Millist meetodit rakendati?
- Töötlemise metaandmed. Olemite arv kirje kohta, usaldusskoorid, töödeldud kirjete koguarv.
- Jääkriski hinnang. Kui suur on tõenäosus, et mõnda isikut saab taasidentifitseerida? Asendamismeetodi anonüümiseerimiseks 285+ olemitüübiga struktureeritud teksti puhul on see tõenäosus väga väike.
- Kavandatav kasutus. Millist mudelit treenitakse? Mis on treeningu eesmärk?
Pakktöötlus pakub punkte 2 ja 3 automaatselt. Punktid 1, 4 ja 5 pärinevad andmeteadlaselt.
Vaata anonym.legal pakk-API-t, kuidas töötlemise metaandmed iga töö kohta tagastatakse.
Mida sa saad
GDPR-nõuetele vastavad ML-komplektid on saavutatavad ilma kohandatud skriptideta, ilma mitme päevase viivituseta ja ilma mudeli kvaliteeti kaotamata.
Asendamismeetod säilitab loomulikud keeleomadused, mis on NLP-treeningu jaoks olulised. See eemaldab isikuandmed, mis tekitavad GDPR-riski.
45 minutit pakktöötlust on erinevus hilinenud vastavuse ülevaatuse ja sirgjoonelise DPO kinnitamise vahel.