Vissza a BlograGDPR & Megfelelés

Miért Vallanak Kudarcot az Önhoszting PII Eszközök a...

A spaCy 3.4.4 eltérő NER eredményeket produkál, mint a spaCy 3.5.1. Egy pénzügyi szolgáltató cég felderíti...

April 21, 20266 perc olvasás
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

A Környezeti Eltolódás Problémája

Az önhoszting Presidio telepítések egy olyan környezetspecifikus viselkedéstől szenvednek, amely különböző névtelenítési eredményeket produkál ugyanazon bemenetből különböző környezetekben vagy különböző időszakokban:

Modell verzió eltolódás: A spaCy nyelvi modellek verziókra vannak bontva. Az en_core_web_lg 3.4.4 vs. 3.5.1 eltérő NER-pontossági profillal rendelkezik. A Presidio-t a modell 3.4.4-el telepítő szervezet különböző eredményeket kap, mint az újabb telepítéssel rendelkező szervezet. A különbség kicsi, de kvantitatív — és auditból megállapítható.

Függőségcsomag eltérések: A Presidio 15+ Python-függőséggel rendelkezik. A függőség-rögzítés nélkül különböző telepítések eltérő verziójú spaCy-t, transformers-t és egyéb könyvtárakat kapnak.

Erőforrás-kiosztási különbségek: A gépi tanulási modellek eltérően viselkedhetnek eltérő memória- és CPU-allokáció esetén. Az alacsony memóriájú termelési környezetek kihagyhatnak feldolgozási lépéseket, amelyek magas memóriájú fejlesztői környezetekben sikeresek.

Betanítási adat eltérések: Az egyéni rekognitor modellek specifikus betanítási adatokhoz kötöttek. Ha a betanítási adatok frissülnek, de a modell nem kerül újratelepítésre, a megfelelőség romlani fog.

Mit Keres az Auditor

A GDPR 32. cikke megköveteli "a személyes adatok folyamatos bizalmasságát, integritását, rendelkezésre állását és ellenálló képességét biztosító képességet." A DPA-auditok az önhosztolt PII-eszközök esetén ezeket vizsgálják:

Verziókontroll: Mi az az eszközök pontos verziója? Van-e verzió-rögzítés a telepítési szkriptekben? Mikor frissítették utoljára?

Tesztelési eredmények: Van-e dokumentált tesztelés ismert PII-tartalmú tesztkészleteken? Változtak-e az eredmények verziók között?

Különböző környezetek közötti konzisztencia: Azonos eredményt produkál-e a fejlesztői, staging és termelési környezet ugyanazon bemenetre?

Modell-frissítési folyamat: Hogyan kerülnek telepítésre a modellfrissítések? Ellenőrizhetők-e visszafelé kompatibilis teljesítménnyel?

A Menedzselt API Előnye

A menedzselt API-k — mint az anonym.legal — megszüntetik a környezeti konzisztencia problémát a GDPR-megfelelőség szempontjából:

  • A verzió a szállító által ellenőrzött — az ügyfél minden API-hívásban azonos verziót kap
  • Az eredmények konzisztensek az összes ügyfél-hívás esetén
  • A verziófrissítések dokumentáltan, teszteléssel kerülnek bevezetésre
  • Nincs függőségkezelés vagy modelltárolás szükséges az ügyfél infrastruktúráján

A megfelelőségi audit esetén: "Verzió X.Y.Z API-t használtunk az összes feldolgozáshoz, a szállítóval rendelkezünk Adatfeldolgozási Megállapodással" — ez az auditálható bizonyíték.

Forrás:

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.