Miks omapaigaldatud isikuandmete tööriistad ei täida nõustamise auditeid: Keskkonna järjepidevuse probleem
GDPR vastutavuse põhimõte nõuab järjepideva, korratava tehniliste meetmete näitamist. DPA auditoijad uurivad mitte ainult seda, kas anonüümsus toimus, vaid kas ta toimus järjepidiselt kõigis töötlemises.
Omapaigaldatud Presidio juurutuste puhul on keskkonna järjepidevus süsteemse väljakutse — mitte konfiguratsiooniga seotud probleem, vaid omapaigaldatud NLP infrastruktuuri arhitektuuri piirang.
Keskkonna triivi probleem
Omapaigaldatud Presidio paigaldused alluvad keskkonnaspetsiifilisele käitumisele, mis annab erinevaid anonüümsuse tulemusi samast sisendist erinevates keskkondades või ajavahemikes:
Mudeli versioon triiv: spaCy keelemudelid on versioonitud. en_core_web_lg 3.4.4 ja en_core_web_lg 3.5.1 treeniti erinevalt, erinevate treeningandmete ja arhitektuuridega. Sama dokument, mida töödelti mõlema mudeliga, võib anda erinevaid NER tulemusi — erinevad isikud tuvastatud, erinevad organisatsiooni klassifikaatorid, erinevad asukoha piirid.
Arengu → etappide → tootmise müüril võivad mudeliversioonid olla:
- Arendus: en_core_web_lg 3.4.4 (installitud projekti alustamisel)
- Etappide: en_core_web_lg 3.5.0 (uuendatud rutiin hooldusakna ajal)
- Tootmine: en_core_web_lg 3.5.1 (uuendatud turvalisusparanduse tsükli ajal)
Kolm keskkonda, kolm mudelit, kolm erinevat tuvastamiskäitumist. Nõustamistestid tuvastati arenduses, kuid tootmine käitub erinevalt.
Tulevik mudeli uuendamiste ebaühtlus
Isegi juhul, kui organisatsioon püüab mudela versioone sünkroonida:
spaCy uuendamised toimuvad mitte täpselt samal ajal:
- Arendajad installivad pip update-i käigus iga nädalal
- OPS tiim uuendab testis kord kuus
- Tootmine jookseb valideeritud mudeliga, uuendamine kord kvartalis
Kolm keskkonda jooksevad kaks korda aastaga erinevate spaCy versioonidega. Auditeerimise perioodil dokumenteeritud käitumist ei saa täiskaaluga tootmises korrata.
Sertifikaadi ja mudeli registripõhjalikkus
EU mudelivahetamise juhiste järgi on auditeeri järjepidevus kriitilisne:
- Dokumenteerida täpne mudeli versioon igal keskkonna tasemel
- Automaatne mudeli versioonide jäädvustamine igal täitmise käigus
- Seadista mudeli uuendamise poliitika (millal ja kuidas uuendada)
Hallatud teenused, mis käitavad kõiki keskkonda samast mudeliversioonist (kaltsiifitseeritud ja valideeritud), lahendavad selle probleemi infrastruktuuritasandil.
Allikad: