anonym.legal
Nazaj na blogGDPR in skladnost

Zakaj samovostežne orodja PII padejo pri reviziji...

spaCy 3.4.4 proizvede drugačne rezultate NER kot spaCy 3.5.1. Finančna podjetja odkrijejo, da je 3% dokumentov drugače anonimiziranih v nastavljanju vs.

April 21, 20266 min branja
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

Zakaj samovostežne orodja PII padejo pri reviziji skladnosti: problem konsistentnosti okolja

Načelo odgovornosti GDPR zahteva dokazovanje doslednih, ponovljivih tehničnih ukrepov. Revizorji DPA pregledajo ne samo to, ali se je zgodila anonimizacija, ampak ali se je zgodila dosledno v vsi obdelavi.

Za samovostežne uvajanje Presidio je konsistentnost okolja sistemska izziv – ne problem konfiguracije, ampak arhitekturna omejitev samovostežne infrastrukture NLP.

Problem premikanja okolja

Samovostežne namestitve Presidio so podvrg vedenji specifičnemu za okolje, ki proizvede različne rezultate anonimizacije iz istih vhodov v različnih okoljih ali časovih obdobjih:

Drift verzije modela: Jezikovni modeli spaCy so verzioniran. en_core_web_lg 3.4.4 in en_core_web_lg 3.5.1 so bili usposobljeni drugače, z različnimi podatki za usposabljanje in arhitekturami. Isti dokument, obdelan z obema verzijama modelov, lahko proizvede drugačne rezultate NER – drugačna imena oseb zaznane, drugačne klasifikacije organizacij, drugačne meje lokacij.

V cevovodu razvoj → nastavljanje → produkcija se verzije modelov podem biti:

  • Razvoj: en_core_web_lg 3.4.4 (nameščen, ko je projekt začel)
  • Nastavljanje: en_core_web_lg 3.5.0 (nadgrajeno med rutinskim oknom vzdrževanja)
  • Produkcija: en_core_web_lg 3.5.1 (nadgrajeno med ciklom varnostne obljube)

Tri okolja, tri verzije modelov, tri različni vedenja detekcije. Preskusi skladnosti se ..."

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.