A Környezeti Eltolódás Problémája
Az önhoszting Presidio telepítések egy olyan környezetspecifikus viselkedéstől szenvednek, amely különböző névtelenítési eredményeket produkál ugyanazon bemenetből különböző környezetekben vagy különböző időszakokban:
Modell verzió eltolódás: A spaCy nyelvi modellek verziókra vannak bontva. Az en_core_web_lg 3.4.4 vs. 3.5.1 eltérő NER-pontossági profillal rendelkezik. A Presidio-t a modell 3.4.4-el telepítő szervezet különböző eredményeket kap, mint az újabb telepítéssel rendelkező szervezet. A különbség kicsi, de kvantitatív — és auditból megállapítható.
Függőségcsomag eltérések: A Presidio 15+ Python-függőséggel rendelkezik. A függőség-rögzítés nélkül különböző telepítések eltérő verziójú spaCy-t, transformers-t és egyéb könyvtárakat kapnak.
Erőforrás-kiosztási különbségek: A gépi tanulási modellek eltérően viselkedhetnek eltérő memória- és CPU-allokáció esetén. Az alacsony memóriájú termelési környezetek kihagyhatnak feldolgozási lépéseket, amelyek magas memóriájú fejlesztői környezetekben sikeresek.
Betanítási adat eltérések: Az egyéni rekognitor modellek specifikus betanítási adatokhoz kötöttek. Ha a betanítási adatok frissülnek, de a modell nem kerül újratelepítésre, a megfelelőség romlani fog.
Mit Keres az Auditor
A GDPR 32. cikke megköveteli "a személyes adatok folyamatos bizalmasságát, integritását, rendelkezésre állását és ellenálló képességét biztosító képességet." A DPA-auditok az önhosztolt PII-eszközök esetén ezeket vizsgálják:
Verziókontroll: Mi az az eszközök pontos verziója? Van-e verzió-rögzítés a telepítési szkriptekben? Mikor frissítették utoljára?
Tesztelési eredmények: Van-e dokumentált tesztelés ismert PII-tartalmú tesztkészleteken? Változtak-e az eredmények verziók között?
Különböző környezetek közötti konzisztencia: Azonos eredményt produkál-e a fejlesztői, staging és termelési környezet ugyanazon bemenetre?
Modell-frissítési folyamat: Hogyan kerülnek telepítésre a modellfrissítések? Ellenőrizhetők-e visszafelé kompatibilis teljesítménnyel?
A Menedzselt API Előnye
A menedzselt API-k — mint az anonym.legal — megszüntetik a környezeti konzisztencia problémát a GDPR-megfelelőség szempontjából:
- A verzió a szállító által ellenőrzött — az ügyfél minden API-hívásban azonos verziót kap
- Az eredmények konzisztensek az összes ügyfél-hívás esetén
- A verziófrissítések dokumentáltan, teszteléssel kerülnek bevezetésre
- Nincs függőségkezelés vagy modelltárolás szükséges az ügyfél infrastruktúráján
A megfelelőségi audit esetén: "Verzió X.Y.Z API-t használtunk az összes feldolgozáshoz, a szállítóval rendelkezünk Adatfeldolgozási Megállapodással" — ez az auditálható bizonyíték.
Forrás: