Vieno skriptu nepakanka

Kiekviena duomenu mokslo komanda yra parasciusi kaz ka panasaus:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Sis kodas pakeicia el. pasto adresus. Tai viskas, ka jis daro. Duomenu rinkinyje vis dar lieka vardai, telefono numeriai ir medicinos identifikatoriai. Jis vis tiek nepraeis BDAR audito.

Atstumas tarp "el. pastus anonimizavau" ir "sis duomenu rinkinys atitinka BDAR" yra didelis. Komandos tai nuolat neisvertina.

Kodel BDAR riboja ML mokyma

BDAR 5 straipsnio 1 dalies b punktas yra pagrindine taisykle. Ji vadinama tikslų apribojimo principu. Asmens duomenys gali buti naudojami tik tam tikslui, kuriam jie buvo surinkti.

Klientu uzsakymai buvo surinkti uzsakymu vykdymui. Ne rekomendacijos modelio mokymui. Sveikatos duomenys buvo surinkti gydymui. Ne readmisijos modelio mokymui. Apklausu atsakymai buvo surinkti produkto atsiliepimams. Ne nuotaiku klasifikatoriaus mokymui.

Norint tuos duomenis naudoti ML mokymui, komandai reikia vieno is triju dalykų:

Kiekvieno asmens aiškus sutikimas ML tikslui - sudetinga gauti, dažnai neįmanoma retroaktyviai
Teisetu interesu ivertinimas, rodantis, kad ML naudojimas yra suderinamas - teisiškai neaišku, priklauso nuo DPA
Anonimizavimas - asmeniniu duomenu pakeitimas ar pasalinimas, kad duomenu rinkinys nebelaikytusi asmeniniu pagal BDAR

Tinkamas anonimizavimas suteikia didžiausia teisini tikruma. Issukis - daryti tai teisingai kaskart.

Problemos su vienkartiniais skriptais

Komandos, kiekvieno duomenu rinkinio apdorojimui raksucios nauja Python skriptu, sukuria kaupiamas problemas.

Nepilna apreptis. Skriptas, sukurtas vienai schemai, praleidzia naujus laukus. Klinikininiu pastabų stulpelis, pridetas pries šešis menesiusius? Nera regexyje. Viduriniosios vardo laukas? Skriptas apdoroja tik pirmo ir pavardžiu modelius.

Jokio nuoseklumo. A duomenu rinkinys buvo apdorotas su script_v1. B rinkinys naudojo script_v3. C rinkinį apdorojo kitas komandos narys. Sujungtame mokymo rinkinyje taikomi trys skirtingi metodai. DPO negali jo sertifikuoti.

Jokio audito takelio. Skriptas paleistas. Ka jis pakete? Kokios esybes buvo rastos? Be apdorojimo irasu, atitiktis yra neįmanoma. Kai DPA auditorius klausia "kaip žinote, kad sis mokymo rinkinys yra švarus?", atsakymas "paleidom Python skriptu" yra nepakankamas.

Modelio dreifas. Regexy modeliai, veike 2023 m., nepagauna nauju identifikatoriaus formatu is 2024 m. Skriptai patys savęs neatnaujina.

Partijos apdorojimo žingsniu apžvalga

Sveikatos prieziuros DI komanda turi anonimizuoti 8 000 pacientu irasu. JAV komandai reikia prieigos iš ES biuro. Taikomas Schrems II - ES kilmes irasai negali keliauti i JAV infrastruktura be tinkamų apsaugų.

Tradicinis kelias: Duomenu inžinierius raso pasirinktini skriptu. Dvi iki trys kūrimo dienos. Viena iki dvi DPO peržiuros dienos. Viena iteracijos diena. Iš viso: keturios iki šešios dienos. ML projektas vėluoja.

Partijos apdorojimo kelias:

Eksportuoti 8 000 irasu kaip CSV
Isikelti i partijos apdorojima
Nustatyti esybių tipus: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Pasirinkti metoda: Replace (pakeicia realistinemis sintetinemis reikstemis, issaugant struktura)
Apdoroti: 45 minutes 8 000 irasu
Atsisiusti svaria CSV
DPO peržiuri apdorojimo metaduomenis - rasta esybiu kiekis kiekvienam irasui, taikyti metodai: 2 valandos
DPO patvirtina. Perkėlimas vyksta.

Bendras laikas: 45 minutės ir 2 valandos DPO peržiuros. Vietoj keturių iki šešių dienų.

Daugiau apie tai, kaip šie patys žingsniai tenkina ES DI akto 10 straipsnio reikalavimus, žr. ES DI akto mokymo vadove.

Replace vs. Redact ML naudojimui

Anonimizavimo metodas turi itakos modelio kokybei.

Redact pakeicia ADA žetonu kaip [REDACTED]. Tai tinka ADA aptikimo modeliams. Kitoms uzduotims - nuotaiku analizei, klasifikavimui, rekomendavimui - tai kenksmingas. Modelis isimoksta, kad [REDACTED] yra ypatingas žetonas. Jis negali mokytis is natūralaus vardų ir reiksminiu pasiskirstymo.

Replace pakeicia "Jonas Jonaitis" i "Petras Petraitis". Pakeicia "jjonaitis@imone.lt" i "ppetraitis@sintetinis.com". Struktura issaugoma. Esybiu vieta, sambuvio modeliai, sakinio tekejimas - visa tai issaugoma. Modelis mokosi is realistinio konteksto.

ML mokymo rinkiniams Replace yra teisingas pasirinkimas. Modelis neisimoksta netikrų reiksminiu. Jis isimoksta modelius aplink jas. Tai yra svarbu.

Schrems II ir tarpvalstybiniai perduodimai

Schrems II sprendimas (ESTT, 2020) panaikino ES ir JAV privatumo skydu. ES kilmes irasai negali patekti i JAV ML infrastruktura - AWS US-East, GCP US-Central - be tinkamų perdavimo apsaugų.

Trys pagrindiniai apsaugos mechanizmai:

Standartines sutarciniu salygos su perdavimo poveikio vertinimu
Privalomos imoniu taisykles pervedimams imoniu grupeje
Anonimizuotu irasu isvadojimas - tinkamai anonimizuoti failai nebelaikomi asmeniniais pagal BDAR ir yra atleisti nuo perdavimo taisykliu

Komandoms, naudojanciosum JAV infrastruktura su ES kilmes rinkiniais, tinkamas anonimizavimas pasalina Schrems II problema. Svarius duomenu rinkinys nera asmeninis. Jis gali laisvai judeti.

Tai viena is stipriausių praktinių partijų anonimizavimo naudų. Jis ne tik tenkina BDAR, bet ir visiškai pasalina tarpvalstybinius trugdžius.

Daugiau apie perdavimo apribojimus žr. BDAR tikslų apribojimo vadove.

Ka pateikti DPO

Teikiant svaria mokymo rinkini DPO patvirtinimui, itraukite šiuos penkis elementus:

Saltinio aprasas. Kas buvo originalus duomenu rinkinys? Koks buvo rinkimo tikslas? Kokias asmeniniu duomenu kategorijas jis apeme?
Anonimizavimo konfiguracija. Kurie esybiu tipai buvo nustatyti ir pakeisti? Koks metodas buvo taikytas?
Apdorojimo metaduomenys. Esybiu skaicius kiekvienam irasui, pasitikejimo balai, bendras apdorotų irasu skaicius.
Likusios rizikos ivertinimas. Kokia tikimybe, kad bet kuris asmuo galetu buti identifikuotas is naujo? Replace metodo anonimizavimui su 285+ esybiu tipais struktūrizuotame tekste si tikimybe yra labai maža.
Numatytas naudojimas. Koks modelis bus mokomas? Koks mokymo tikslas?

Partijos apdorojimas automatiškai pateikia 2 ir 3 punktus. 1, 4 ir 5 punktai ateina is duomenu mokslininko.

Daugiau apie tai, kaip apdorojimo metaduomenys grazinami su kiekviena uzduotimi, žr. anonym.legal partijų API.

Ka gausite

BDAR atitinkantys ML rinkiniai yra pasiekiami be pasirinktinių skriptų, be kelių dienų vėlavimu ir neprarandant modelio kokybės.

Replace metodas issaugo natūralias kalbos savybes, svarbias NLP mokymui. Jis pasalina asmeninius duomenis, kurie kuria BDAR rizika.

45 minutės partijų apdorojimo yra skirtumas tarp vėluojančio atitikties peržiuros ir tiesioginiu DPO patvirtinimo.

Šaltiniai

Susiję Straipsniai

Techninė

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

Pradėti Nemokamą Bandomąją Versiją Peržiūrėti Funkcijas

BDAR ir ML mokymo duomenu anonimizavimas

Vieno skriptu nepakanka

Kodel BDAR riboja ML mokyma

Problemos su vienkartiniais skriptais

Partijos apdorojimo žingsniu apžvalga

Replace vs. Redact ML naudojimui

Schrems II ir tarpvalstybiniai perduodimai

Ka pateikti DPO

Ka gausite

Šaltiniai

Susiję Straipsniai

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pasiruošę apsaugoti savo duomenis?

BDAR ir ML mokymo duomenu anonimizavimas

Vieno skriptu nepakanka

Kodel BDAR riboja ML mokyma

Problemos su vienkartiniais skriptais

Partijos apdorojimo žingsniu apžvalga

Replace vs. Redact ML naudojimui

Schrems II ir tarpvalstybiniai perduodimai

Ka pateikti DPO

Ka gausite

Šaltiniai

Susiję Straipsniai

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pasiruošę apsaugoti savo duomenis?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow