Miért buknak meg a saját üzemeltetésű PII-eszközök a megfelelőségi auditorokon?
A GDPR bizonyítékot követel. Igazolnod kell, hogy a személyes adatok eltávolítása minden alkalommal ugyanúgy történt. Az adatvédelmi hatóság auditorai ezt ellenőrzik. Egyértelmű, következetes módszert akarnak látni az összes adatra alkalmazva.
A saját üzemeltetésű Presidio-nak itt valódi problémája van. Ez nem konfigurációs probléma. Ez a saját üzemeltetésű NLP-eszközök alapvető korlátja.
Mi a környezeti eltérés?
A saját üzemeltetésű Presidio fejlesztői, átmeneti és éles környezetben fut. Mindegyik eltérően viselkedhet. Így ugyanaz a bemenet mindegyikben eltérő eredményt adhat.
Ezt hívják környezeti eltérésnek. Négy fő oka van.
Modellverzió-eltérés
A spaCy modellek verziózottak. Az `en_core_web_lg 3.4.4` és az `en_core_web_lg 3.5.1` modell különböző adatokon tanult. Különböző tervezést is alkalmaznak. Így ugyanaz a dokumentum eltérő NER-eredményt adhat minden verzióval.
Egy tipikus beállítás így néz ki:
- Fejlesztői: `en_core_web_lg 3.4.4` — a projekt elején telepítve
- Átmeneti: `en_core_web_lg 3.5.0` — rutinmunka során frissítve
- Éles: `en_core_web_lg 3.5.1` — biztonsági javítás során frissítve
Ez három beállítás. Három modellverzió. Három különböző felismerési eredmény. A tesztek átmennek az átmeneti környezetben. De az éles környezet más modellt futtat. A különbség rejtve marad.
Függőségverzió-eltérés
A spaCy 3.4.x és 3.5.x eltér a mondatok felosztásának módjában. Ez a változás befolyásolja, hogy a nevek hogyan találhatók meg a mondathatárok közelében. Ezek a változások benne vannak a spaCy kiadási megjegyzéseiben. De a legtöbb csapat nem ellenőrzi ezeket a PII-hatás szempontjából.
Konfigurációs eltérés
A fejlesztői környezetben beállított pontszám-küszöbök esetleg nem kerülnek át az éles környezetbe. Az egyedi szólisták is eltérhetnek a beállítások között. Ezek a különbségek gyakoriak. Ritkán követik nyomon őket. Lásd a GDPR-megfelelőségi útmutatót, ahol részletezzük, mire figyelnek az auditorok.
Hardver-különbségek
Az NLP-modellek matematikája nem azonos minden CPU-n és GPU-n. Egy fogyasztói laptop és egy szerver kissé eltérő pontszám-eredményeket adhat. Így egyes neveket az egyik gépen megtalál, a másikon nem.
Egy valódi auditálás
Egy bank tesztelte saját üzemeltetésű Presidio-beállítását.
Teszt-beállítás: Presidio spaCy 3.4.4-gyel az átmeneti fürtön. Éles beállítás: Presidio spaCy 3.5.1-gyel az éles fürtön.
Ugyanazokat a dokumentumokat futtatták mindkét beállításon. Majd összehasonlították az eredményeket. A megállapítás: a dokumentumok 3%-ában eltérő személyes adat-eltávolítási eredmények születtek. Egyes neveket az átmeneti környezetben megtalált, az éles nem. Egyes esetekben a felismerési szöveg-szegmensek eltértek.
Az audit megállapítása egyértelmű volt: „A cég nem tudja igazolni a technikai személyes adat-eltávolítási intézkedések következetes alkalmazását a felismerési kimenet beállítás-specifikus különbségei miatt.”
A GDPR 32. cikke megfelelő technikai intézkedéseket követel. Az EDPB személyes adat-eltávolítási szabályai következetességet és megismételhetőséget írnak elő. Havi 100 000 dokumentumnál 3%-os arány 3 000 dokumentumot jelent havi következetlen eredményekkel. Ezek egy része téves negatív. Az átmeneti környezetben megtalált személyes adat az éles kimenetben megmarad. Ez megfelelőségi kudarc.
A bank ezt követően kezelt SaaS-re váltott. Az auditálási megállapítást lezárták. Lásd a biztonsági és megfelelőségi oldalunkat, ahol részletezzük, hogyan kezelik a kezelt beállítások ezt a problémát.
Miért különböznek a kezelt szolgáltatások?
A kezelt szolgáltatás egyetlen motoverziót futtat. Minden felhasználó egyidőben ugyanazt a verziót futtatja. A modellfrissítések egyetlen helyről kerülnek alkalmazásra. A konfiguráció is egyetlen helyről kezelt, teljes változásnaplóval. A felhasználói hardver nem befolyásolja az eredményeket.
Így ugyanaz a dokumentum ma feldolgozva ugyanolyan eredményt ad jövő hónapban. Ha a motorverzió változott, a változás naplózott és verziózott.
Az auditnyomvonal különbsége kulcsfontosságú.
Saját üzemeltetésű auditnyomvonal:
- „Presidio 2.2.35-öt használtunk spaCy `en_core_web_lg 3.5.1`-gyel Ubuntu 22.04-en.”
- Ez ugyanaz a verzió volt, mint az átmeneti környezetben? Ismeretlen.
- Változott-e a modell, mióta ezt a dokumentumot feldolgoztuk? Ismeretlen, hacsak nem követik nyomon.
- Ugyanaz-e a pontszám-küszöb, mint a tesztelés során? Ez a konfigurációkezeléstől függ.
Kezelt szolgáltatás auditnyomvonala:
- „anonym.legal API-t használtunk, motorverzió 4.22.1, 2025-03-15T14:22:31Z időpontban.”
- Minden felhasználónál ugyanaz a verzió? Igen.
- Változott-e? A motorverziók rögzítettek. A 4.22.1 mindig ugyanazt a motort jelenti.
- A konfiguráció megismételhető? Igen. A preset-azonosító naplózott. A konfiguráció az adott verzióban lekérhető.
A kezelt nyomvonal egyértelmű. A saját üzemeltetésű nyomvonal gondos nyomon követést igényel, amelyet a legtöbb csapat kihagyja.
Hogyan javítható a saját üzemeltetésű következetesség?
Ha a saját üzemeltetés kötelező, négy lépéssel csökkentheted az eltérést.
Először rögzítsd a modellverziókat. Zárd le a pontos modellverziókat minden telepítési fájlban. Blokkold az automatikus frissítéseket. Kövesd nyomon a verziókat a forráskezelőben.
Ezután fagyaszd be a tárolóképeket. Építs Docker-képeket pontosan meghatározott modellverziókkal. Jelöld meg minden képet a modellverzióval, a Presidio-verzióval és a dátummal. Ne frissítsd az alap-képeket előzetes tesztelés nélkül.
Tartsd a konfigurációt kódban is. Tárold az összes Presidio-beállítást verziókövetett fájlokban. Ez magában foglalja a felismerőket, a pontszám-küszöbértékeket és az aktív nyelveket. Telepítsd a konfigurációt az alkalmazással együtt.
Végül tesztelj beállítások között. Minden frissítés után futtass egy rögzített tesztdokumentum-készletet az új beállításon. Hasonlítsd össze az eredményeket egy tárolt referenciával. Automatizáld ezt az ellenőrzést. Lásd a GYIK-et az automatizált PII-regressziós teszteléssel kapcsolatos gyakori kérdésekért.
Ezek a lépések segítenek. De munkát is adnak. A kezelt szolgáltatás ugyanolyan következetességet ad anélkül, hogy ez a plusz erőfeszítés szükséges lenne.
A lényeg
A következetes személyes adat-eltávolítás nem szerepel a termékismertetőkben. De kritikussá válik, amikor az auditorok bizonyítékot kérnek.
Aktív gondozás nélkül a saját üzemeltetésű PII-eszközök eltérnek. A verzióváltozások csendes különbségeket adnak hozzá. Ezek a különbségek auditálási megállapításként jelennek meg.
A kezelt szolgáltatások alapértelmezés szerint következetességet biztosítanak. A motor egyetlen helyről fut. A felhasználói beállítások nem befolyásolják az eredményeket. A megfelelőségre összpontosító csapatoknál ez közvetlen előny.