Problema de precizie 22,7% a Presidio
Fals pozitivele în detecția PII produc daune reale. Când 77,3% din ceea ce instrumentul tău marchează drept „nume de persoane” nu sunt nume reale, nu protejezi confidențialitatea. Distrugi date.
Un benchmark din 2024 a testat modelul NER implicit al Microsoft Presidio pe documente de afaceri. Testul a acoperit rapoarte financiare, scrisori pentru clienți, documente de produs și tichete de suport. Rezultatul: precizie de 22,7% pentru detecția numelor.
Acel număr este izbitor. Din fiecare 100 de elemente marcate, 23 sunt nume reale de persoane. Celelalte 77 sunt fals pozitive — etichete de produs, termeni de brand sau etichete de oraș.
Trei din patru detecții sunt greșite. Aceasta nu este o problemă minoră de calibrare. Este un instrument stricat pentru lucrul cu documente de afaceri.
De ce se întâmplă asta
Presidio folosește modelul en_core_web_lg al spaCy ca implicit. Acest model a învățat din text de știri. În știri, cei mai mulți substantivi proprii sunt persoane sau locuri reale.
Documentele de afaceri sunt diferite.
Etichete de produs care arată ca nume de persoane individuale. „Apple iPhone 15 Pro registre de expediere” este marcat ca PERSOANĂ. La fel și „Samsung Galaxy Tab” și „Cisco Meraki implementare.”
Termeni de companie cu părți asemănătoare numelor. În „Johnson Controls rezultate”, cuvântul „Johnson” este marcat ca PERSOANĂ. „Goldman Sachs portofoliu” declanșează aceeași eroare.
Etichete de locație care declanșează detecția de persoane. „Victoria Harbour proiect” marchează „Victoria” ca PERSOANĂ. „Santiago hub” marchează „Santiago” în același mod.
Modelului îi lipsește contextul pentru a distinge „Apple” (companie) de „Apple Smith” (o persoană). Acel decalaj este rădăcina celor mai multe fals pozitive. Textul de știri l-a învățat să trateze substantivele proprii ca persoane sau locuri. Textul de afaceri încalcă această regulă tot timpul.
Efectul în aval
O firmă de date a folosit Presidio pentru a curăța sondajele clienților înainte de a le partaja. Un audit a descoperit patru probleme. În primul rând, 40% dintre sondaje aveau etichete de produs eliminate eronat. În al doilea rând, etichetele de oraș erau eliminate din fiecare răspuns. În al treilea rând, mențiunile de brand fuseseră șterse din setul de analiză. În al patrulea rând, sentimentul față de produse specifice nu putea fi citit.
Echipa de analiză a primit text redactat cu toate referințele la produse eliminate. Sondajul numise inițial iPhone Pro și încărcătorul Apple. Acea semnificație dispăruse.
Firma nu proteja mai bine confidențialitatea. Distrugea date fără a obține conformitate. Presidio a fost înlocuit după audit.
Consultați prezentarea noastră de conformitate pentru a înțelege cum calitatea detecției afectează poziția ta de reglementare.
O abordare mai bună: detecție hibridă
Problema nu este unică pentru Presidio. NER la nivel de token fără context va avea întotdeauna această problemă. Soluția este detecția conștientă de context.
De ce ajută transformatoarele: Un model precum XLM-RoBERTa citește întreaga propoziție. „Apple a anunțat câștigurile sale” → Apple este o firmă. „Apple Smith s-a alăturat echipei” → Apple este un prenume. Contextul îți spune care este care.
Aceasta îmbunătățește precizia păstrând recall-ul ridicat. Consultați comparația de mai jos.
| Abordare | Precizie | Recall |
|---|---|---|
| NER implicit Presidio | 22,7% | ~85% |
| Numai regex | ~95% | ~40% |
| Hibrid (Regex + NLP + Transformer) | ~85% | ~80% |
Abordarea hibridă atinge 85% precizie. Aceasta înseamnă o rată de fals pozitive de 15%. Mult mai bine decât 77,3%. Pentru documente de afaceri, acest decalaj contează.
Stiva hibridă are patru pași:
-
Stratul regex: Găsește ID-uri structurate — e-mailuri, numere de telefon, SSN-uri, IBAN-uri. Formatele sunt fixe, astfel fals pozitivele sunt rare. Acesta rulează primul.
-
Stratul NLP (spaCy): NER standard pentru persoane, firme și locuri. Recall ridicat, precizie mai scăzută.
-
Stratul transformer (XLM-RoBERTa): Re-scorează fiecare rezultat NLP folosind contextul întregii propoziții. „Apple” în context de produs pierde scorul de entitate. „John” în textul unei reclamații îl câștigă.
-
Pragul de încredere: Doar rezultatele peste un scor stabilit trec la ieșire. Ridică pragul pentru cazuri de utilizare analitică. Coboară-l pentru de-identificarea HIPAA.
Rezultate după schimbare
Firma de analiză a trecut la detecție hibridă. Câștigurile au fost clare. Fals pozitivele pentru etichete de produs au scăzut de la 40% la 3%. Fals pozitivele pentru etichete de oraș au căzut aproape de zero. Recall-ul real de identitate a rămas la ~82%, ușor scăzut față de 85%, dar precizia s-a îmbunătățit mult.
Sondajele au devenit din nou utilizabile. „iPhone,” „Apple,” „Samsung,” și „Chicago” au rămas în text. Numele clienților în contexte de reclamații au fost eliminate corect.
Detecția hibridă necesită mai mult calcul. Pentru lucrările mari, timpii de execuție sunt puțin mai lungi. Pentru cele mai multe cazuri de utilizare de afaceri, câștigul de acuratețe merită. Firma putea rula din nou analiza. Acesta era întregul scop al datelor din sondaj.
Citiți despre abordarea noastră de detecție în prezentarea de securitate.
Când ratele ridicate de fals pozitive sunt acceptabile
Unele cazuri favorizează recall-ul față de precizie.
HIPAA Safe Harbor: Ratarea unui adevărat pozitiv este o încălcare. O rată de fals pozitive de 10% este acceptabilă dacă PHI real nu este niciodată ratat. Eliminarea excesivă este mai sigură decât eliminarea insuficientă.
Revizuire juridică: Ratarea unui contact privilegiat poate renunța la privilegiu. Fals pozitivele necesită revizuire, dar nu creează răspundere.
Analiză de afaceri: Eliminarea excesivă strică datele fără un câștig de conformitate. Precizia contează mai mult aici. Folosiți o abordare hibridă cu un prag de încredere ridicat. Aceasta menține etichetele de brand și termenii de oraș în ieșire. Numai numele reale de persoane sunt eliminate.
Echilibrul corect depinde de cazul tău de utilizare. Instrumentele care îți permit să setezi pragul îți oferă control. Nicio valoare implicită singulară nu funcționează pentru fiecare context.
Consultați FAQ-ul nostru pentru întrebări frecvente despre praguri și moduri de detecție.
Concluzie
O rată de precizie de 22,7% înseamnă că 3 din 4 detecții sunt greșite. Pentru documentele de afaceri, aceasta face ieșirea inutilizabilă pentru analiză. De asemenea, oferă o falsă încredere despre conformitate.
Detecția hibridă rezolvă asta. Combină regex, NLP și scorarea cu transformer. Datele rămân utile după anonimizare. Numele reale de persoane sunt eliminate. Etichetele de brand, termenii de oraș și identificatorii de produse rămân.
Dacă ați părăsit Presidio din cauza problemelor cu fals pozitivele, aceasta este calea de urmat. Nu o nouă configurare a aceluiași model. O arhitectură diferită construită pentru contexte de documente de afaceri.
Surse
Priva PII Benchmark 2024: Evaluarea preciziei Presidio. VERIFICAT-EXTERN.
Microsoft Presidio: Entități suportate și arhitectura modelului. VERIFICAT-EXTERN.
spaCy: Date de antrenament și limitări en_core_web_lg. VERIFICAT-EXTERN.