Zakaj samovostežne orodja PII padejo pri reviziji skladnosti: problem konsistentnosti okolja
Načelo odgovornosti GDPR zahteva dokazovanje doslednih, ponovljivih tehničnih ukrepov. Revizorji DPA pregledajo ne samo to, ali se je zgodila anonimizacija, ampak ali se je zgodila dosledno v vsi obdelavi.
Za samovostežne uvajanje Presidio je konsistentnost okolja sistemska izziv – ne problem konfiguracije, ampak arhitekturna omejitev samovostežne infrastrukture NLP.
Problem premikanja okolja
Samovostežne namestitve Presidio so podvrg vedenji specifičnemu za okolje, ki proizvede različne rezultate anonimizacije iz istih vhodov v različnih okoljih ali časovih obdobjih:
Drift verzije modela: Jezikovni modeli spaCy so verzioniran. en_core_web_lg 3.4.4 in en_core_web_lg 3.5.1 so bili usposobljeni drugače, z različnimi podatki za usposabljanje in arhitekturami. Isti dokument, obdelan z obema verzijama modelov, lahko proizvede drugačne rezultate NER – drugačna imena oseb zaznane, drugačne klasifikacije organizacij, drugačne meje lokacij.
V cevovodu razvoj → nastavljanje → produkcija se verzije modelov podem biti:
- Razvoj: en_core_web_lg 3.4.4 (nameščen, ko je projekt začel)
- Nastavljanje: en_core_web_lg 3.5.0 (nadgrajeno med rutinskim oknom vzdrževanja)
- Produkcija: en_core_web_lg 3.5.1 (nadgrajeno med ciklom varnostne obljube)
Tri okolja, tri verzije modelov, tri različni vedenja detekcije. Preskusi skladnosti se ..."