Zakaj lastno gostovana orodja za PII ne prestanejo revizij skladnosti
GDPR zahteva dokaze. Pokazati morate, da je bilo odstranjevanje PII opravljeno na enak nacin vsakic. Revizorji DPA to preverjajo. Zelijo videti jasno in dosledno metodo, ki je bila uporabljena pri vseh podatkih.
Lastno gostovani Presidio ima tukaj resnicen problem. Ni konfiguracijska tezava. Je temeljna omejitev lastno gostovanih orodij NLP.
Kaj je odmik okolja?
Lastno gostovani Presidio deluje v razvoju, pripravljalnem okolju in produkciji. Vsako od teh se lahko obnaša drugace. Torej isti vhod v vsakem od njih lahko da drugacne rezultate.
To se imenuje odmik okolja. Ima stiri glavne vzroke.
Odmik razlicice modela
Modeli spaCy so verzioniranimi. Model en_core_web_lg 3.4.4 in en_core_web_lg 3.5.1 sta bila ucena na razlicnih podatkih. Prav tako uporabljata razlicne nacine delovanja. Torej isti dokument lahko da z vsako razlicico drugacne rezultate NER.
Pogosta nastavitev je videti takole:
- Razvoj: en_core_web_lg 3.4.4 -- nameščen ob zacetku projekta
- Pripravljalno okolje: en_core_web_lg 3.5.0 -- posodobljeno med rutinskim delom
- Produkcija: en_core_web_lg 3.5.1 -- posodobljeno med varnostnim popravkom
To so tri nastavitve. Tri razlicice modelov. Trije razlicni rezultati zaznavanja. Testi uspejo v pripravljalnem okolju. Toda produkcija zaganja drugacen model. Tako vrzel ostane skrita.
Odmik razlicice odvisnosti
spaCy 3.4.x in 3.5.x se razlikujeta v nacinu deljenja povedi. Ta sprememba vpliva na to, kako se najdejo imena v bliztni mejnih besednih zvez. Te spremembe so v beležkah o izdaji spaCy. Toda vecina ekip jih ne preverja glede vpliva na PII.
Odmik konfiguracije
Pragovi ocen, nastavljeni v razvoju, se morda ne bodo prenesli v produkcijo. Listi besed po meri se prav tako lahko razlikujejo med nastavitvami. Te vrzeli so pogoste. Redko se sledijo. Oglejte si naš vodic za skladnost GDPR za tisto, kar iščejo revizorji.
Razlike v strojni opremi
Matematika v modelih NLP ni enaka na vseh CPE in GPE. Porabljenišnikov prenosni racunalnik in strežnik lahko data rahlo drugacne rezultate ocen. Torej nekatera imena so morda najdena na enem stroju, a ne na drugem.
Ugotovitev resnicinega revizije
Banka je testirala svojo lastno gostovano nastavitev Presidia.
Testna nastavitev: Presidio s spaCy 3.4.4 na pripravljalnem gruci. Ziva nastavitev: Presidio s spaCy 3.5.1 na produkcijski gruci.
Zagnavali so isti nabor dokumentov skozi obe. Nato so primerjali rezultate. Ugotovitev: 3 % dokumentov je imelo drugacne rezultate odstranjevanja PII. Nekatera imena so bila ujeta v pripravljalnem okolju, a ne v produkciji. Nekatera so imela razlicna zaznana besedilna razpona.
Ugotovitev revizije je bila neposredna: "Podjetje ne more pokazati dosledno uporabo tehnicnih ukrepov za odstranjevanje PII zaradi razlik v izhodu zaznavanja, specificnih za posamezno nastavitev."
Clanek 32 GDPR zahteva ustrezne tehnicne ukrepe. Pravila EDPB za odstranjevanje PII zahtevajo doslednost in ponovljivost. 3-odstotna stopnja pri 100.000 dokumentih na mesec pomeni 3.000 dokumentov z nedoslednimi rezultati vsak mesec. Nekateri so lazni negativni. PII, ki bi ga pripravljalno okolje ujelo, ostane v zivednem izhodu. To je napaka v skladnosti.
Banka je nato prešla na upravljani SaaS. Ugotovitev revizije je bila zaprta. Oglejte si naše strani za varnost in skladnost, kako upravljane nastavitve obravnavajo to.
Zakaj so upravljane storitve drugacne
Upravljana storitev zaganja eno razlicico motorja. Vsi uporabniki hkrati zaganajo isto razlicico. Posodobitve modelov se nanasajo z enega mesta. Konfiguracija se prav tako upravlja z enega mesta z dnevnikom vseh sprememb. Strojna oprema uporabnika ne vpliva na rezultate.
Torej isti dokument, obdelan danes, da enak rezultat naslednji mesec. Ce se je razlicica motorja spremenila, je ta sprememba evidentirana in verzionirana.
Razlika revizijske sledi je kljucna.
Revizijska sled lastnega gostovanja:
- "Uporabljen Presidio 2.2.35 s spaCy en_core_web_lg 3.5.1 na Ubuntu 22.04."
- Ali je bila to ista razlicica kot v pripravljalnem okolju? Neznano.
- Ali se je model spremenil, odkar je bil obdelan ta dokument? Neznano, razen ce je sledeno.
- Ali je prag ocen enak kot pri testiranju? Odvisno od upravljanja konfiguracije.
Revizijska sled upravljane storitve:
- "Uporabljen API anonym.legal, razlicica motorja 4.22.1, ob 2025-03-15T14:22:31Z."
- Ista razlicica za vse uporabnike? Da.
- Ali se je spremenila? Razlicice motorja so pritrjene. Razlicica 4.22.1 vedno pomeni isti motor.
- Ali je konfiguracija ponovljiva? Da. ID prednastavitve je evidentiran. Konfiguracijo pri tej razlicici je mogoce pridobiti.
Upravljana sled je jasna. Lastno gostovana sled zahteva skrbno sledenje, ki ga vecina ekip preskoči.
Kako izboljšati doslednost lastnega gostovanja
Ce je lastno gostovanje zahtevano, lahko z ststirimi koraki zmanjšate odmik.
Prvic, pritrdite razlicice modelov. Zaklernite tocne razlicice modelov v vseh namestitvenih datotekah. Blokirajte samodejne posodobitve. Sledite razlicicam v nadzoru izvorne kode.
Naslednje, zamrznite slike vsebnikov. Zgradite Docker slike z natancnimi razlicicami modelov, vgrajenimi v njih. Oznacite vsako sliko z razlicico modela, razlicico Presidia in datumom. Brez testiranja ne posodabljajte osnovnih slik.
Prav tako hranite konfiguracijo v kodi. Shranite vse nastavitve Presidia v datoteke, sledene v nadzoru razlicic. To vkljucuje detektorje, pragove ocen in aktivne jezike. Namestite konfiguracijo z aplikacijo.
Koncno testirajte v vseh nastavitvah. Po vsaki posodobitvi zazenite fiksni nabor testnih dokumentov skozi novo nastavitev. Primerjajte rezultate s shranjenim referenenim naborom. Avtomatizirajte ta pregled. Oglejte si FAQ za pogosta vprašanja o avtomatiziranem regresijskem testiranju PII.
Ti koraki pomagajo. A prav tako dodajajo delo. Upravljana storitev zagotavlja enako doslednost brez dodatnega napora.
Bistvo
Dosledno odstranjevanje PII se ne pojavi v listinah o izdelkih. Toda postane kriticno, ko revizorji zahtevajo dokaze.
Brez aktivne skrbi se lastno gostovana orodja za PII oddaljijo. Spremembe razlicic dodajo tihe vrzeli. Te vrzeli se pojavijo kot ugotovitve revizije.
Upravljane storitve privzeto zagotavljajo doslednost. Motor teece z enega mesta. Nastavitve uporabnikov ne vplivajo na rezultate. Za ekipe, osredotocene na skladnost, je to neposredna prednost.