Problema Derivei de Mediu
Instalările Presidio self-hosted sunt supuse comportamentului specific mediului care produce rezultate diferite de anonimizare din aceeași intrare în medii diferite sau perioade de timp:
Deriva versiunii modelului: Modelele de limbaj spaCy sunt versionate. en_core_web_lg 3.4.4 și en_core_web_lg 3.5.1 au fost antrenate diferit, cu date de antrenament și arhitecturi diferite. Același document procesat de ambele versiuni ale modelului poate produce rezultate NER diferite — diferite nume de persoane detectate, diferite clasificări de organizații, diferite limite de locație.
Într-un pipeline de dezvoltare → staging → producție, versiunile modelelor pot fi:
- Dezvoltare: en_core_web_lg 3.4.4 (instalat când a început proiectul)
- Staging: en_core_web_lg 3.5.0 (actualizat în cursul unei ferestre de mentenanță de rutină)
- Producție: en_core_web_lg 3.5.1 (actualizat în cursul ciclului de patch de securitate)
Trei medii, trei versiuni ale modelelor, trei comportamente de detecție diferite. Testele de conformitate trec în staging deoarece staging-ul corespunde dezvoltării. Producția se comportă diferit.
Deriva dependențelor: Pachetele Python schimbă comportamentul în versiunile minore. O schimbare a comportamentului tokenizatorului de propoziții în spaCy 3.4.x față de 3.5.x afectează detecția limitelor propoziției, care afectează modul în care sunt detectate numele care se întind pe limitele propozițiilor.
Principiul de Responsabilitate GDPR și Consistența Documentată
Principiul de responsabilitate GDPR (Articolul 5(2)) necesită ca controlorii să „poată demonstra" conformitatea. Demonstrarea conformității necesită dovezi ale procesului sistematic.
Când un auditor APD revizuiește practicile de anonimizare, caută:
- Procedură documentată
- Configurarea instrumentului corespunde procedurii documentate
- Dovezi de aplicare: documentele sunt procesate consistent cu procedura și configurarea
Soluția: Serviciile SaaS gestionate elimină deriva mediului la nivel de arhitectură. Toți utilizatorii accesează același model versioned și aceeași configurație.
Surse: Îndrumarea Tehnică GDPR Art. 32 BfDI 2024; Problema GitHub Presidio #237 — Erori de Sintaxă