Kāpēc pašhostēti PII rīki neiztur atbilstības auditus
GDPR prasa pierādījumus. Jums jāparāda, ka PII noņemšana tika veikta tādā pašā veidā katru reizi. DPA auditori to pārbauda. Viņi vēlas redzēt skaidru, konsekventu metodi izmantotu visos datos.
Pašhostētajam Presidio ir reāla problēma šeit. Tā nav konfigurācijas problēma. Tā ir pašhostētu NLP rīku pamatierobežojums.
Kas ir vides novirze?
Pašhostētais Presidio darbojas izstrādē, uzstādīšanas vidē un ražošanā. Katrs no tiem var uzvesties citādi. Tāpēc tas pats ieguldījums var dot atšķirīgus rezultātus katrā no tiem.
To sauc par vides novirzi. Tai ir četri galvenie cēloņi.
Modeļa versijas novirze
spaCy modeļi ir versijās. Modelis en_core_web_lg 3.4.4 un en_core_web_lg 3.5.1 tika apmācīti uz dažādiem datiem. Viņiem ir arī atšķirīgi dizaini. Tāpēc tas pats dokuments var dot atšķirīgus NER rezultātus ar katru versiju.
Izplatīta iestatīšana izskatās šādi:
- Izstrāde:
en_core_web_lg 3.4.4— instalēts projekta sākumā - Uzstādīšanas vide:
en_core_web_lg 3.5.0— atjaunināts rutīnas darba laikā - Ražošana:
en_core_web_lg 3.5.1— atjaunināts drošības labojuma laikā
Tā ir trīs iestatīšanas. Trīs modeļu versijas. Trīs atšķirīgi noteikšanas rezultāti. Testi iztur uzstādīšanas vidē. Taču ražošana darbojas ar atšķirīgu modeli. Tāpēc plaisa paliek slēpta.
Atkarību versijas novirze
spaCy 3.4.x un 3.5.x atšķiras teikumu dalīšanā. Šī izmaiņa ietekmē to, kā vārdi tiek atrasti netālu no teikumu robežām. Šīs izmaiņas ir spaCy izlaidumu piezīmēs. Taču lielākā daļa komandu tās nepārbauda PII ietekmes kontekstā.
Konfigurācijas novirze
Punktu sliekšņi, kas iestatīti izstrādē, var nenokļūt ražošanā. Pielāgotie vārdu saraksti var arī atšķirties starp iestatīšanām. Šīs plaisas ir izplatītas. Tās reti tiek izsektas. Skatiet mūsu GDPR atbilstības rokasgrāmatu, lai uzzinātu, ko auditori meklē.
Aparatūras atšķirības
Matemātika NLP modeļos nav identiska visos CPU un GPU. Patēriņa klēpjdators un serveris var dot nedaudz atšķirīgus punktu rezultātus. Tāpēc daži vārdi var tikt atrasti uz vienas iekārtas, bet ne uz citas.
Reāls audita atradums
Banka testēja savu pašhostēto Presidio iestatīšanu.
Testa iestatīšana: Presidio ar spaCy 3.4.4 uz uzstādīšanas klastera. Aktīvā iestatīšana: Presidio ar spaCy 3.5.1 uz ražošanas klastera.
Viņi palaida to pašu dokumentu kopu caur abiem. Tad salīdzināja rezultātus. Atradums: 3% dokumentu bija atšķirīgi PII noņemšanas rezultāti. Daži vārdi tika atklāti uzstādīšanas vidē, bet ne ražošanā. Dažiem bija atšķirīgi noteikto teksta intervāli.
Audita atradums bija tieši: "Uzņēmums nevar demonstrēt konsekventu tehnisko PII noņemšanas pasākumu izmantošanu, jo iestatīšanai raksturīgās atšķirības noteikšanas izvadē."
GDPR 32. pants prasa atbilstošus tehniskos pasākumus. EDPB noteikumi par PII noņemšanu prasa konsekvenci un atkārtojamību. 3% īpatsvars pār 100 000 dokumentiem mēnesī nozīmē 3 000 dokumentu ar nekonsekventi rezultātiem katru mēnesi. Daži ir viltus negatīvie rezultāti. PII, kuru uzstādīšanas vide atklātu, paliek aktīvajā izvadē. Tā ir atbilstības neveiksme.
Banka pēc tam pārgāja uz pārvaldītu SaaS. Audita atradums tika slēgts. Skatiet mūsu drošības un atbilstības lapu, lai uzzinātu, kā pārvaldītas iestatīšanas to apstrādā.
Kāpēc pārvaldītie pakalpojumi ir atšķirīgi
Pārvaldīts pakalpojums darbojas ar vienu dzinēja versiju. Visi lietotāji vienlaikus darbojas ar to pašu versiju. Modeļu atjauninājumi tiek piemēroti no vienas vietas. Konfigurācija arī tiek pārvaldīta no vienas vietas, ar pilnu izmaiņu žurnālu. Lietotāja aparatūra neietekmē rezultātus.
Tāpēc tas pats dokuments, kas apstrādāts šodien, nākamajā mēnesī dod to pašu rezultātu. Ja dzinēja versija mainījās, šī izmaiņa ir žurnālā un versijā.
Audita pēdas atšķirība ir galvenā.
Pašhostēta audita pēda:
- "Izmantots Presidio 2.2.35 ar spaCy
en_core_web_lg 3.5.1uz Ubuntu 22.04." - Vai tā bija tā pati versija kā uzstādīšanas vidē? Nezināms.
- Vai modelis ir mainījies kopš šī dokumenta apstrādes? Nezināms, ja vien tas netika izsekots.
- Vai punktu slieksnis ir tāds pats kā testēšanā? Tas ir atkarīgs no konfigurācijas pārvaldības.
Pārvaldīta pakalpojuma audita pēda:
- "Izmantots anonym.legal API, dzinēja versija 4.22.1, 2025-03-15T14:22:31Z."
- Tā pati versija visiem lietotājiem? Jā.
- Vai tā ir mainījusies? Dzinēja versijas ir fiksētas. Versija 4.22.1 vienmēr nozīmē to pašu dzinēju.
- Vai konfigurācija ir atkārtojama? Jā. Iepriekšiestatījuma ID ir žurnālā. Konfigurācija pie šīs versijas var tikt izgūta.
Pārvaldītā pēda ir skaidra. Pašhostētā pēda prasa rūpīgu izsekošanu, ko lielākā daļa komandu izlaiž.
Kā uzlabot pašhostēto konsekvenci
Ja pašhostēšana ir nepieciešama, varat samazināt novirzi ar četriem soļiem.
Pirmkārt, fiksējiet modeļu versijas. Bloķējiet precīzas modeļu versijas visos izvietošanas failos. Bloķējiet automātiskos atjauninājumus. Izsekojiet versijas avota kontrolē.
Tālāk, iesaldējiet konteineru attēlus. Veidojiet Docker attēlus ar precīzām modeļu versijām iebūvētām. Atzīmējiet katru attēlu ar modeļa versiju, Presidio versiju un datumu. Neatjauniniet bāzes attēlus bez iepriekšējas testēšanas.
Arī, glabājiet konfigurāciju kodā. Glabājiet visus Presidio iestatījumus failos, kas izsekoti versiju kontrolē. Tas ietver detektorus, punktu sliekšņus un aktīvās valodas. Izvietojiet konfigurāciju kopā ar lietotni.
Visbeidzot, testējiet visās iestatīšanās. Pēc jebkura atjauninājuma palaidiet fiksētu testdokumentu kopu caur jauno iestatīšanu. Salīdziniet rezultātus ar saglabātu atsauci. Automatizējiet šo pārbaudi. Skatiet BUJ par izplatītiem jautājumiem saistībā ar automātisko PII regresijas testēšanu.
Šie soļi palīdz. Taču tie arī pievieno darbu. Pārvaldīts pakalpojums sniedz to pašu konsekvenci bez papildu piepūles.
Galvenā atziņa
Konsekventa PII noņemšana neparādās produktu lapās. Taču tā kļūst kritiska, kad auditori prasa pierādījumus.
Bez aktīvas rūpes pašhostēti PII rīki novirzās. Versiju izmaiņas pievieno klusas plaisas. Šīs plaisas parādās kā audita atradumi.
Pārvaldītie pakalpojumi pēc noklusējuma nodrošina konsekvenci. Dzinējs darbojas no vienas vietas. Lietotāja iestatīšanas neietekmē rezultātus. Atbilstībai orientētām komandām tā ir tieša priekšrocība.