Egy szkript nem elég
Minden adattudomány-csapat írt már valamit ehhez hasonlót:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Ez lecseréli az e-mail-címeket. Ennyi. Az adatkészlet még mindig tartalmaz neveket, telefonszámokat és orvosi azonosítókat. Egy GDPR-audit során ez megbukna.
Az „e-maileket anonymizáltam” és az „ez az adatkészlet GDPR-megfelelő” közötti szakadék óriási. A csapatok folyton alábecsülik.
Miért korlátozza a GDPR az ML-tanítási felhasználást?
A GDPR 5. cikk (1) bekezdés b) pontja az irányadó szabály: ez a célkorlátozás elve. A személyes adatokat kizárólag a gyűjtésük céljára szabad felhasználni.
Az ügyfélrendeléseket rendelésteljesítés céljára gyűjtötték — nem ajánlómodellek betanítására. Az egészségügyi nyilvántartásokat kezelés céljára rögzítették — nem visszafogadási modellek betanítására. A kérdőíves válaszokat termékinput céljára gyűjtötték — nem hangulatelemző osztályozók tanítására.
Az adatok ML-tanításra való felhasználásához a csapatnak három dolog egyikére van szüksége:
- Explicit hozzájárulás minden érintettől a ML-célra — nehéz megszerezni, visszamenőleg gyakran lehetetlen
- Jogos érdek értékelése, amely igazolja, hogy az ML-felhasználás kompatibilis — jogilag bizonytalan, adatvédelmi hatóságtól függő
- Anonymizálás — a személyes adatok felváltása vagy eltávolítása úgy, hogy az adatkészlet a GDPR szempontjából ne minősüljön személyes adatnak
A megfelelő anonymizálás nyújtja a legtöbb jogi biztonságot. A kihívás az, hogy ezt minden alkalommal helyesen tegyük meg.
Az egyszeri szkriptek problémája
Az adatkészletenként új Python-szkriptet író csapatok összetett problémákat halmoznak fel.
Hiányos lefedettség. Az egy sémára épített szkript kihagyja az új mezőket. Egy hat hónapja hozzáadott klinikai megjegyzés-oszlop? Nincs benne a reguláris kifejezésben. Egy középső névmező? A szkript csak az első és utolsó névmintákat kezeli.
Nincs következetesség. Az A adatkészletet a script_v1-gyel dolgozták fel. A B adatkészletet a script_v3 dolgozta fel. A C adatkészletet egy másik csapattag dolgozta fel. Az összevont tanítókészleten három különböző módszert alkalmaztak. Az adatvédelmi tisztviselő nem tudja tanúsítani.
Nincs auditnapló. A szkript lefutott. Mit változtatott? Milyen entitásokat talált? Feldolgozási nyilvántartások nélkül a megfelelőség igazolhatatlan. Amikor egy adatvédelmi hatóság auditorja megkérdezi, hogy „honnan tudja, hogy ez a tanítókészlet tiszta?”, a „futtattunk egy Python-szkriptet” válasz nem elegendő.
Modelldrift. A 2023-ban működő reguláris minták nem feltétlenül találják meg a 2024-es új azonosítóformátumokat. A szkriptek nem frissítik magukat.
Kötegelt feldolgozási útmutató
Egy egészségügyi MI-csapat 8 000 betegrekordot szeretne anonymizálni. Az USA-s csapatnak egy EU-s irodából kell hozzáférnie. A Schrems II érvényes — az EU-ból származó nyilvántartások nem kerülhetnek USA-s infrastruktúrára megfelelő biztosítékok nélkül.
Hagyományos út: Egy adatmérnök egyedi szkriptet ír. Két-három nap fejlesztés. Egy-két nap adatvédelmi tisztviselői felülvizsgálat. Egy nap iteráció. Összesen: négy-hat nap. Az ML-projekt csúszik.
Kötegelt feldolgozási út:
- A 8 000 rekordot exportálja CSV-be
- Töltse fel kötegelt feldolgozásba
- Állítsa be az entitástípusokat: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Válassza ki a módszert: Replace (szintetikus értékekkel helyettesíti az adatokat a struktúra megőrzéséhez)
- Feldolgozás: 8 000 rekordhoz 45 perc
- Töltse le a tiszta CSV-t
- Az adatvédelmi tisztviselő átnézi a feldolgozási metaadatokat — rekordonkénti entitásszámok, alkalmazott módszerek: 2 óra
- Az adatvédelmi tisztviselő jóváhagyja. Az adattovábbítás megkezdődhet.
Összes idő: 45 perc és 2 óra adatvédelmi tisztviselői felülvizsgálat. Négy-hat nap helyett.
A EU MI-törvényi tanítóadat-útmutatóban megtalálja, hogyan teljesíti ugyanez a folyamat a 10. cikk kötelezettségeit.
Replace vs. Redact ML-felhasználás esetén
Az anonymizálási módszer befolyásolja a modell minőségét.
A Redact a személyes adatokat egy tokennel, pl. [REDACTED] értékkel helyettesíti. Ez jól működik személyesadat-észlelő modelleknél. Más feladatoknál — hangulatelemzés, osztályozás, ajánlás — ront a minőségen. A modell megtanulja, hogy a [REDACTED] egy speciális token. A nevek és értékek természetes eloszlásából nem tud tanulni.
A Replace a „John Smith” helyett „David Chen”-t ír. A „jsmith@company.com” helyett „dchen@synthetic.com”-ot. A struktúra érintetlen marad. Az entitáselhelyezkedés, az együttes előfordulási minták, a mondatfolyás — minden megmarad. A modell valósághű kontextusból tanul.
ML-tanítókészleteknél a Replace a helyes választás. A modell nem tanulja meg a hamis értékeket — a körülöttük lévő mintákat tanulja meg. Ez az, ami számít.
Schrems II és a határon átnyúló adattovábbítás
A Schrems II-ítélet (CJEU, 2020) érvénytelenítette az EU–USA Privacy Shieldet. Az EU-ból származó nyilvántartások nem kerülhetnek USA-s ML-infrastruktúrára — AWS US-East, GCP US-Central — megfelelő adattovábbítási biztosítékok nélkül.
A három fő biztosíték a következő:
- Szokásos szerződéses záradékok adattovábbítás-hatásvizsgálattal
- Kötelező erejű vállalati szabályok csoporton belüli adattovábbításhoz
- Kivétel az anonymizált nyilvántartásokra — a megfelelően anonymizált fájlok a GDPR alapján nem minősülnek személyes adatnak, és mentesülnek az adattovábbítási szabályok alól
Azok a csapatok számára, akik USA-s infrastruktúrát használnak EU-ból származó adatkészletekkel, a megfelelő anonymizálás eltünteti a Schrems II-problémát. A tiszta adatkészlet nem személyes adat. Szabadon átvihető.
Ez a kötegelt anonymizálás egyik legerősebb gyakorlati előnye. Nem csupán kielégíti a GDPR-t — teljesen megszünteti a határon átnyúló súrlódást.
Az adattovábbítási korlátozásokról bővebben a GDPR célkorlátozási útmutatóban olvashat.
Mit adjon át az adatvédelmi tisztviselőnek?
Amikor a tiszta tanítókészletet adatvédelmi tisztviselői jóváhagyásra nyújtja be, mellékelje ezt az öt elemet:
- Forrásmeghatározás. Mi volt az eredeti adatkészlet? Mi volt a gyűjtés célja? Milyen személyes kategóriákat tartalmazott?
- Anonymizálási konfiguráció. Milyen entitástípusokat észlelt és cserélt le a rendszer? Milyen módszert alkalmazott?
- Feldolgozási metaadatok. Rekordonkénti entitásszámok, megbízhatósági pontszámok, feldolgozott rekordok összesen.
- Maradványkockázat-értékelés. Mekkora az esélye, hogy bármelyik egyén újra azonosítható? Replace módszerű anonymizálásnál 285+ entitástípussal strukturált szövegen ez valószínűsége nagyon alacsony.
- Tervezett felhasználás. Milyen modellt fognak betanítani? Mi a tanítás célja?
A kötegelt feldolgozás a 2. és 3. elemet automatikusan biztosítja. Az 1., 4. és 5. elem az adattudóstól származik.
Nézze meg az anonym.legal batch API-t, hogy megtudja, hogyan kerülnek vissza a feldolgozási metaadatok minden munkával.
Amit nyer
A GDPR-megfelelő ML-adatkészletek egyedi szkriptek nélkül, többnapos késedelmek nélkül és modellfőség elveszítése nélkül elérhetők.
A Replace módszer megőrzi azokat a természetes nyelvű tulajdonságokat, amelyek az NLP-tanításhoz számítanak. Eltávolítja a GDPR-kockázatot okozó személyes adatokat.
45 perc kötegelt feldolgozás a különbség a késleltetett megfelelőségi felülvizsgálat és az egyszerű adatvédelmi tisztviselői jóváhagyás között.