Presidioov problem preciznosti od 22,7%
Lazni pozitivni u detekciji PII-a uzrokuju stvarnu stetu. Kada 77,3% onoga sto vas alat oznaci kao "osobna imena" nisu pravi nazivi, ne stitate privatnost. Unistavanje podataka.
Benchmark iz 2024. testirao je Microsoftov Presidio s zadanim NER modelom na poslovnim dokumentima. Test je obuhvatio financijska izvjesca, pisma klijentima, dokumentaciju o proizvodima i zahtjeve za podrsku. Rezultat: 22,7% preciznosti za detekciju imena.
Taj broj je udaran. Na svakih 100 oznacenih stavki, 23 su stvarna osobna imena. Ostalih 77 su lazni pozitivni - oznake proizvoda, nazivi brendova ili nazivi gradova.
Tri od cetiri detekcije su pogresne. To nije manja greska kalibracije. To je pokvareni alat za rad s poslovnim dokumentima.
Zasto se ovo dogadja
Presidio zadano koristi spaCyjev model en_core_web_lg. Ovaj model ucio se na novinarskim tekstovima. U vijestima, vecina vlastitih imenica su stvarni ljudi ili mjesta.
Poslovni dokumenti su drugaciji.
Oznake proizvoda koje izgledaju kao osobna imena. "Apple iPhone 15 Pro zapisi o posiljkama" oznacuje se kao OSOBA. Isto vrijedi za "Samsung Galaxy Tab" i "Cisco Meraki implementaciju."
Tvrtke s dijelovima naziva koji lice na osobna imena. U "Johnson Controls rezultati", rijec "Johnson" oznacuje se kao OSOBA. "Goldman Sachs portfelj" pokrece istu gresku.
Oznake lokacija koje aktiviraju detekciju osoba. "Victoria Harbour projekt" oznacuje "Victoria" kao OSOBU. "Santiago hub" oznacuje "Santiago" na isti nacin.
Modelu nedostaje kontekst za razlikovanje "Apple" (tvrtka) od "Apple Smith" (osoba). Taj jaz je korijen vecine laznih pozitivnih. Novinarski tekstovi naucili su ga da vjlastite imenice tretira kao ljude ili mjesta. Poslovni tekstovi tu pravilo krse sve vrijeme.
Posljedican ucinak
Jedna firma s podacima koristila je Presidio za ciscenje anketa klijenata prije dijeljenja. Revizija je otkrila cetiri problema. Prvo, 40% anketa imalo je pogresno uklonjene oznake proizvoda. Drugo, oznake gradova uklonjene su iz svakog odgovora. Trece, spominjanja brendova izbrisana su iz skupa za analizu. Cetvrto, sentimenti o specificnim proizvodima nisu se mogli citati.
Analiticki tim primio je redaktirani tekst s uklonjenim svim referencama na proizvode. Anketa je izvorno imenovala iPhone Pro i Apple punjac. Taj smisao bio je izgubljen.
Firma nije bolje stitila privatnost. Unistavala je podatke bez postizanja uskladivanja. Presidio je zamijenjen nakon revizije.
Pogledajte nas pregled uskladivanja za informacije o tome kako kvaliteta detekcije utjece na vas regulatorni polozaj.
Bolji pristup: hibridna detekcija
Problem nije jedinstven za Presidio. NER na razini tokena bez konteksta uvijek ce imati ovaj problem. Rjesenje je detekcija svjesna konteksta.
Zasto transformeri pomazu: Model poput XLM-RoBERTa cita cijelu recenicу. "Apple je objavio prihode" - Apple je tvrtka. "Apple Smith se pridruzio timu" - Apple je ime. Kontekst vam govori koji je koji.
Ovo poboljsava preciznost zadrzavajuci visok odziv. Pogledajte usporedbu u nastavku.
| Pristup | Preciznost | Odziv |
|---|---|---|
| Presidio zadani NER | 22,7% | ~85% |
| Samo regex | ~95% | ~40% |
| Hibrid (Regex + NLP + Transformer) | ~85% | ~80% |
Hibridni pristup dostize 85% preciznosti. To znaci stopu laznih pozitivnih od 15%. Daleko bolje od 77,3%. Za poslovne dokumente, ovaj jaz je vazan.
Hibridni stog ima cetiri koraka:
-
Regex sloj: Pronalazi strukturirane identifikatore - e-mailove, brojeve telefona, SSN-ove, IBAN-ove. Formati su fiksirani, pa su lazni pozitivni rijetki. Ovo se izvrsava prvo.
-
NLP sloj (spaCy): Standardni NER za ljude, tvrtke i mjesta. Visok odziv, niza preciznost.
-
Transformer sloj (XLM-RoBERTa): Ponovnim ocjenjivanjem svakog NLP rezultata koristi cijeli kontekst recenice. "Apple" u kontekstu proizvoda gubi ocjenu entiteta. "Ivan" u tekstu prituzbe dobiva je.
-
Prag povjerenja: Samo pogodci iznad postavljene ocjene prolaze u izlaz. Povecajte prag za slucajeve analitike. Smanjite ga za de-identifikaciju prema HIPAA-i.
Rezultati nakon prelaska
Analytics firma presla je na hibridnu detekciju. Dobici su bili jasni. Lazni pozitivni za oznake proizvoda pali su s 40% na 3%. Lazni pozitivni za oznake gradova pali su blizu nule. Pravi odziv identiteta ostao je na ~82%, malo nize od 85%, ali preciznost se uvelike poboljsala.
Ankete su ponovo postale upotrebljive. "iPhone", "Apple", "Samsung" i "Chicago" ostali su u tekstu. Osobna imena u kontekstima prituzbi ispravno su uklonjena.
Hibridna detekcija trosi vise racunalnih resursa. Za velike poslove, trajanje rada je nesto dulje. Za vecinu poslovnih slucajeva, dobitak tocnosti vrijedi toga. Firma je ponovo mogla pokrenuti analizu. To je bila cijela svrha podataka ankete.
Procitajte o nasem pristupu detekciji u pregledu sigurnosti.
Kada su visoke stope laznih pozitivnih prihvatljive
Neki slucajevi favoriziraju odziv nad preciznosti.
HIPAA Safe Harbor: Propustanje istinskog pozitivnog je krsenje. Stopa laznih pozitivnih od 10% je prihvatljiva ako pravi PHI nikad nije propusten. Prekomjerno uklanjanje sigurnije je od nedovoljnog uklanjanja.
Pravni pregled: Propustanje privilegiranog kontakta moze odustati od privilegija. Lazni pozitivni trebaju pregled, ali ne stvaraju odgovornost.
Poslovna analitika: Prekomjerno uklanjanje unistava podatke bez dobitka uskladivanja. Preciznost je ovdje vaznija. Koristite hibridni pristup s visokim pragom povjerenja. Ovo zadrzava brendovske oznake i nazive gradova u izlazu. Uklanjaju se samo stvarna osobna imena.
Pravi balans ovisi o vasem slucaju koristenja. Alati koji vam dopustaju postavljanje praga daju vam kontrolu. Nijedna zadana vrijednost ne radi za svaki kontekst.
Pogledajte nas FAQ za cesta pitanja o pragovima i nacinama detekcije.
Zakljucak
Stopa preciznosti od 22,7% znaci da su 3 od 4 detekcije pogresne. Za poslovne dokumente, to cini izlaz neuporabljivim za analizu. Takodje daje laznu sigurnost u pogledu uskladivanja.
Hibridna detekcija ovo rjesava. Kombinira regex, NLP i transformer ocjenjivanje. Podaci ostaju korisni nakon anonimizacije. Prava osobna imena se uklanjaju. Brendovske oznake, nazivi gradova i identifikatori proizvoda ostaju.
Ako ste napustili Presidio zbog problema s laznim pozitivnim, ovo je put naprijed. Ne nova konfiguracija istog modela. Drugacija arhitektura izgradjena za kontekste poslovnih dokumenata.
Izvori
Priva PII Benchmark 2024: Procjena preciznosti Presidia. VERIFICIRANO-EKSTERNO.
Microsoft Presidio: Podrzani entiteti i arhitektura modela. VERIFICIRANO-EKSTERNO.
spaCy: Podaci za obuku i ogranicenja en_core_web_lg. VERIFICIRANO-EKSTERNO.