anonym.legal
Înapoi la BlogGDPR & Conformitate

De Ce Instrumentele PII Self-Hosted Eșuează...

spaCy 3.4.4 produce rezultate NER diferite față de spaCy 3.5.1. O firmă de servicii financiare descoperă că 3% din documente au fost anonimizate...

April 21, 20266 min citire
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Problema Derivei de Mediu

Instalările Presidio self-hosted sunt supuse comportamentului specific mediului care produce rezultate diferite de anonimizare din aceeași intrare în medii diferite sau perioade de timp:

Deriva versiunii modelului: Modelele de limbaj spaCy sunt versionate. en_core_web_lg 3.4.4 și en_core_web_lg 3.5.1 au fost antrenate diferit, cu date de antrenament și arhitecturi diferite. Același document procesat de ambele versiuni ale modelului poate produce rezultate NER diferite — diferite nume de persoane detectate, diferite clasificări de organizații, diferite limite de locație.

Într-un pipeline de dezvoltare → staging → producție, versiunile modelelor pot fi:

  • Dezvoltare: en_core_web_lg 3.4.4 (instalat când a început proiectul)
  • Staging: en_core_web_lg 3.5.0 (actualizat în cursul unei ferestre de mentenanță de rutină)
  • Producție: en_core_web_lg 3.5.1 (actualizat în cursul ciclului de patch de securitate)

Trei medii, trei versiuni ale modelelor, trei comportamente de detecție diferite. Testele de conformitate trec în staging deoarece staging-ul corespunde dezvoltării. Producția se comportă diferit.

Deriva dependențelor: Pachetele Python schimbă comportamentul în versiunile minore. O schimbare a comportamentului tokenizatorului de propoziții în spaCy 3.4.x față de 3.5.x afectează detecția limitelor propoziției, care afectează modul în care sunt detectate numele care se întind pe limitele propozițiilor.

Principiul de Responsabilitate GDPR și Consistența Documentată

Principiul de responsabilitate GDPR (Articolul 5(2)) necesită ca controlorii să „poată demonstra" conformitatea. Demonstrarea conformității necesită dovezi ale procesului sistematic.

Când un auditor APD revizuiește practicile de anonimizare, caută:

  1. Procedură documentată
  2. Configurarea instrumentului corespunde procedurii documentate
  3. Dovezi de aplicare: documentele sunt procesate consistent cu procedura și configurarea

Soluția: Serviciile SaaS gestionate elimină deriva mediului la nivel de arhitectură. Toți utilizatorii accesează același model versioned și aceeași configurație.

Surse: Îndrumarea Tehnică GDPR Art. 32 BfDI 2024; Problema GitHub Presidio #237 — Erori de Sintaxă

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.