En skript ni dovolj

Vsaka ekipa podatkovnih znanstvenikov je ze napisala nekaj takega:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

To zamenja e-postne naslove. To je vse, kar naredi. Nabor podatkov se vedno vsebuje imena, telefonske stevilke in medicinske ID-je. Se vedno bo padel na reviziji GDPR.

Vrzel med "anonimiziral sem e-postne naslove" in "ta nabor podatkov je skladen z GDPR" je velika. Ekipe jo podcenjujejo ves cas.

Clen 5(1)(b) GDPR je kljucno pravilo. Imenuje se nacelo omejitve namena. Osebne evidence se smejo uporabiti samo za namen, za katerega so bile zbrane.

Naroci kupcev so bili zbrani za izpolnitev narocil. Ne za ucenje modela priporocil. Zdravstveni kartoni so bili zbrani za zdravljenje. Ne za ucenje modela ponovnih sprejemov. Odgovori na ankete so bili zbrani za povratne informacije o izdelku. Ne za ucenje klasifikatorja custvene naravnanosti.

Za uporabo teh evidenc za ucenje ML ekipa potrebuje eno od treh stvari:

Izrecno soglasje vsake osebe za namen ML - tezko ga je dobiti, pogosto nemogoce naknadno
Oceno zakonitega interesa, ki pokazuje, da je uporaba ML zduzljiva - pravno negotovo, odvisno od nadzornega organa
Anonimizacijo - zamenjavo ali odstranitev osebnih podatkov, tako da nabor podatkov po GDPR vec ni oseben

Pravilna anonimizacija daje najvecjo pravno gotovost. Izziv je pravilno izvesti vsak krat.

Problem z enkratnimi skripti

Ekipe, ki pisejo nov Python skript za vsak nabor podatkov, ustvarjajo sestavljene tezave.

Nepopolna pokritost. Skript, zgrajen za eno shemo, zamudi nova polja. Stolpec klinicnih opomb, dodan pred sestimi meseci? Ni v regularnem izrazu. Polje srednje ime? Skript obravnava samo vzorce prvega in priimka.

Brez doslednosti. Nabor podatkov A je bil obdelan s skript_v1. Nabor podatkov B je uporabil skript_v3. Nabor podatkov C je obdelal drug clan ekipe. Zdruzen nabor ucnih podatkov ima tri razlicne metode. Pooblascena oseba za varstvo podatkov (DPO) tega ne more potrditi.

Brez revizijske sledi. Skript se je zagnal. Kaj je spremenil? Katere entitete so bile najdene? Brez evidenc obdelave je skladnost nemogoca. Ko revizor nadzornega organa vprase "kako veste, da je ta ucni nabor cist?", odgovor "pognali smo Python skript" ni dovolj.

Zastarevanje modela. Vzorci regularnih izrazov, ki so delovali leta 2023, prezrejo nove formate identifikatorjev iz leta 2024. Skripti se ne posodabljajo sami.

Vodic za paketno obdelavo

Ekipa za zdravstveno umetno inteligenco mora anonimizirati 8.000 evidenc pacientov. Americka ekipa potrebuje dostop iz pisarne v EU. Velja Schrems II - evidence iz EU ne morejo iti na infrastrukturo v ZDA brez ustreznih varovalk.

Tradicionalna pot: Podatkovni inzenir napise skript po meri. Dva do tri dni razvoja. En do dva dneva pregleda DPO. En dan iteracije. Skupaj: stiri do sest dni. Projekt ML se zamakne.

Pot paketne obdelave:

Izvoz 8.000 evidenc v CSV
Nalozitev v paketno obdelavo
Nastavitev vrst entitet: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Izbira metode: Replace (zamenja realisticne sinteticne vrednosti za ohranitev strukture)
Obdelava: 45 minut za 8.000 evidenc
Prenos cistega CSV-ja
DPO pregleda metapodatke obdelave - najdene entitete na evidenco, uporabljene metode: 2 uri
DPO odobri. Prenos se nadaljuje.

Skupni cas: 45 minut plus 2 uri pregleda DPO. Namesto stiri do sest dni.

Glejte vodic za ucne podatke EU AI Act za to, kako isti koraki izpolnjujejo obveznosti po clenu 10.

Replace vs. Redact za uporabo ML

Metoda anonimizacije je pomembna za kakovost modela.

Redact nadomesti osebne podatke z znakom, kot je [REDACTED]. To deluje za modele zaznavanja osebnih podatkov. Za druge naloge - custveno analizo, klasifikacijo, priporocila - skoduje. Model se nauci, da je [REDACTED] posebna znacka. Ne more se uciti iz naravne porazdelitve imen in vrednosti.

Replace zamenja "Janez Novak" z "David Chen." Zamenja "jnovak@podjetje.com" z "dchen@synthetic.com." Struktura ostane nedotaknjena. Postavitev entitet, vzorci so-pojavljanja, tok stavkov - vse je ohranjeno. Model se uci iz realnega konteksta.

Za ucne nabore ML je Replace prava izbira. Model se ne nauci laznih vrednosti. Nauci se vzorcev okoli njih. To je tisto, kar je pomembno.

Schrems II in cezmejna prenosenja

Sodba Schrems II (CJEU, 2020) je razveljavila EU-US Privacy Shield. Evidence iz EU ne morejo iti na infrastrukturo ML v ZDA - AWS US-East, GCP US-Central - brez ustreznih prenosnih varovalk.

Tri glavne varovalke so:

Standardne pogodbene klavzule z oceno vpliva prenosa
Zavezujoca korporacijska pravila za prenose znotraj poslovne skupine
Izjema za anonimizirane evidence - pravilno anonimizirane datoteke po GDPR niso vec osebne in so izvzete iz pravil prenosa

Za ekipe, ki uporabljajo infrastrukturo v ZDA z nabori iz EU, pravilna anonimizacija odstrani problem Schrems II. Cist nabor podatkov ni oseben. Prosto se premika.

To je ena najmocnejsih prakticnih prednosti paketne anonimizacije. Ne zadosti samo GDPR. Popolnoma odpravlja cezmejna trenja.

Vec o omejitvah prenosa glejte v vodicU za omejitev namena GDPR.

Kaj dati DPO

Pri predlozitvi cistega ucnega nabora za odobritev DPO prilozte teh pet elementov:

Opis vira. Kaj je bil prvotni nabor podatkov? Kaksna je bila namen zbiranja? Katere osebne kategorije je vseboval?
Konfiguracija anonimizacije. Katere vrste entitet so bile zaznane in nadomesCene? Katera metoda je bila uporabljena?
Metapodatki obdelave. Stevilo entitet na evidenco, zanesljivostni rezultati, skupno stevilo obdelanih evidenc.
Ocena preostalega tveganja. Kaksna je verjetnost, da bi se katera koli oseba ponovno identificirala? Za anonimizacijo z metodo Replace z 285+ vrstami entitet na strukturiranem besedilu je ta verjetnost zelo majhna.
Predvidena uporaba. Kateri model bo ucen? Kaksna je namen ucenja?

Paketna obdelava samodejno zagotavlja tocke 2 in 3. Tocke 1, 4 in 5 prispeva podatkovni znanstvenik.

Glejte paketni API anonym.legal za to, kako so metapodatki obdelave vrnjeni z vsako nalogo.

Kaj pridobite

Nabori ML, skladni z GDPR, so dosegljivi brez skriptov po meri, brez vecdnevnih zakasnitev in brez izgube kakovosti modela.

Metoda Replace ohranja lastnosti naravnega jezika, ki so pomembne za ucenje NLP. Odstrani osebne podatke, ki ustvarjajo tveganje GDPR.

45 minut paketne obdelave je razlika med zakasnjenimi pregledi skladnosti in enostavno odobritvijo DPO.

Viri

Sorodni članki

Tehnično

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

Anonimizacija podatkov za ucenje ML v skladu z GDPR

En skript ni dovolj

Problem z enkratnimi skripti

Vodic za paketno obdelavo

Replace vs. Redact za uporabo ML

Schrems II in cezmejna prenosenja

Kaj dati DPO

Kaj pridobite

Viri

Sorodni članki

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ste pripravljeni zaščititi svoje podatke?

Anonimizacija podatkov za ucenje ML v skladu z GDPR

En skript ni dovolj

Zakaj GDPR omejuje ucenje ML

Problem z enkratnimi skripti

Vodic za paketno obdelavo

Replace vs. Redact za uporabo ML

Schrems II in cezmejna prenosenja

Kaj dati DPO

Kaj pridobite

Viri

Sorodni članki

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow