Problem presnosti Presidio: 22,7 %
Falošné poplachy pri detekcii PII spôsobujú skutocnú škodu. Ked 77,3 % toho, co váš nástroj oznací ako "mená osob", nie sú skutocné mená, nechránite sukromie. Nicíte dáta.
Benchmark z roku 2024 testoval predvoleny model NER v Microsoft Presidio na obchodnych dokumentoch. Test zahŕnal financné správy, dopisy zákazníkom, dokumentáciu produktov a tikety podpory. Výsledok: presnost 22,7 % pre detekciu mien.
Toto cislo je zarážajúce. Na každych 100 oznacenych poloziek je 23 skutocnych individuálnych mien. Zvysnych 77 su falošné poplachy — názvy produktov, firemné pojmy alebo názvy miest.
Tri zo štyroch detekcií su chybné. To nie je menší problém kalibrácie. To je nefunkcny nástroj pre prácu s obchodnymi dokumentmi.
Preco k tomu dochádza
Presidio pouzíva predvolene model spaCy en_core_web_lg. Tento model sa ucil na novinarskych textoch. V správach sú vacsina vlastných podstatnych mien skutocné osoby alebo miesta.
Obchodné dokumenty su iné.
Nálepky produktov, ktore vyzerjú ako mená osob. "Záznamy o dodávkach Apple iPhone 15 Pro" su oznacené ako PERSON. Rovnako aj "Samsung Galaxy Tab" a "nasadenie Cisco Meraki".
Firemné pojmy s castami podobnymi menám. V "vysledkoch Johnson Controls" je slovo "Johnson" oznacené ako PERSON. "Portfólio Goldman Sachs" spúšta rovnakú chybu.
Nálepky umiestnení, ktore spúšajú detekciu osob. "Projekt Victoria Harbour" oznacuje "Victoria" ako PERSON. "Hub Santiago" oznacuje "Santiago" rovnakym spôsobom.
Modelu chybá kontext na rozlíšenie "Apple" (spolocnost) od "Apple Smitha" (osoba). Táto medzera je prícihou vacsiny falošnych poplachov. Novinársky text ho naucil zaobchadzat s vlastnymi podstanymi menami ako s ludmi alebo miestami. Obchodny text toto pravidlo porušuje stále.
Nasledky v praxi
Dátová firma pouzívala Presidio na cistenie prieskumov zákazníkov pred ich zdielaním. Audit odhalil štyri problémy. Po prvé, 40 % prieskumov malo chybne odstranené nálepky produktov. Po druhé, nálepky miest boli odstrânené z každej odpovede. Po tretie, zmienky o znackách boli vymazané z analytickej sady. Po štvrté, sentiment ohladom konkrétnych produktov nebolo mozné cítat.
Analyticky tím dostal zredigovaný text so všetkymi odstrânenymi odkazmi na produkty. Prieskum pôvodne menoval iPhone Pro a nabijacku Apple. Tento vyznam zmizel.
Firma nechránila sukromie lepšie. Nicila dáta bez získania súladu. Presidio bolo po audite nahradené.
Pozrite si náš prehlad súladu, ako kvalita detekcie ovplyvnuje vás regulacny stav.
Lepší prístup: hybridná detekcia
Tento problem nie je jedinecny pre Presidio. NER na úrovni tokenov bez kontextu bude mat tento problem vzdy. Opravou je detekcia zohladnujúca kontext.
Preco transformery pomáhajú: Model ako XLM-RoBERTa citá celú vetu. "Apple oznámil svoje zárobky" — Apple je firma. "Apple Smith nastúpil do tímu" — Apple je krstné meno. Kontext vám povie, ktore je ktore.
To zlepšuje presnost pri zachovaní vysokej úplnosti. Pozrite si porovnanie niz šie.
| Prístup | Presnost | Úplnost |
|---|---|---|
| Predvolená NER Presidio | 22,7 % | ~85 % |
| Len regex | ~95 % | ~40 % |
| Hybridna (Regex + NLP + Transformer) | ~85 % | ~80 % |
Hybridny prístup dosahuje presnost 85 %. To znamená 15% mieru falošnych poplachov. Omnoho lepsie ako 77,3 %. Pre obchodné dokumenty na tomto rozdiely záleží.
Hybridny zásobník má štyri kroky:
-
Vrstva regex: Nachádzá štruktúrované ID — emaily, telefónne císla, SSN, IBAN. Formáty su pevne dané, takze falošné poplachy su zriedkavé. Prebehne ako prvá.
-
Vrstva NLP (spaCy): Standardná NER pre ludí, firmy a miesta. Vysoká úplnost, niz šia presnost.
-
Vrstva transformera (XLM-RoBERTa): Prehodnotí kazdy výsledok NLP pomocou kontextu celej vety. "Apple" v kontexte produktu stráca skóre entity. "John" v texte staznosti ho získava.
-
Prah spolahlivosti: Do výstupu prejdú len výsledky nad nastavenym skóre. Zvýšte prah pre analytické prípady pouÎzitia. Znizite ho pre de-identifikáciu podla HIPAA.
Výsledky po prechode
Analytická firma prešla na hybridnú detekciu. Zisky boli jasné. Falošné poplachy nálepiek produktov klesli zo 40 % na 3 %. Falošné poplachy nálepiek miest klesli takmer na nulu. Skutocná úplnost identity zostala na ~82 %, mierne pod 85 %, ale presnost sa výrazne zlepšila.
Prieskumy sa stali znova pouÎzitelnymi. "iPhone", "Apple", "Samsung" a "Chicago" zostali v texte. Mená zákazníkov v kontexte stazností boli správne odstranené.
Hybridná detekcia vyzaduje viacej výpoctov. Pri veľkych úlohách su doby behu o nieco dlhsie. Pre vacsinu obchodnych prípadov pouÎzitia je zisk presnosti za to. Firma mohla znova vykonávat analýzu. To bol celý zmysel prieskumnych dát.
Precítajte si o našom prístupe k detekcii v prehladu bezpecnosti.
Ked su vysoké miery falošnych poplachov prijatelné
Niektoré prípady uprednostnujú úplnost pred presnostou.
HIPAA Safe Harbor: Premeškanie skutocného pozitívu je porušením. Miera falošnych poplachov 10 % je v poriadku, ak skutocné PHI nikdy nechybí. Nadmerné odstranenie je bezpecnejšie ako nedostatocné.
Právna kontrola: Premeškanie privilegovaného kontaktu môze zbavit výsady. Falošné poplachy vyzadujú kontrolu, ale nevytvárajú zodpovednost.
Obchodná analytika: Nadmerné odstranenie stráca dáta bez zisku súladu. Tu viac záleží na presnosti. Pouzite hybridny prístup s vysokym prahom spolahlivosti. To zachová nálepky znaciek a pojmy miest vo výstupe. Odstrania sa len skutocné mená osob.
Spravná rovnováha závisí od vášho prípadu pouÎzitia. Nástroje, ktore vám umoznujú nastavit prah, vám dávajú kontrolu. Iadne jednotné predvolené nastavenie nefunguje v každom kontexte.
Pozrite si náš FAQ pre casteé otázky o prahoch a rezimoch detekcie.
Záver
Miera presnosti 22,7 % znamená, ze 3 zo 4 detekcií su chybné. Pre obchodné dokumenty to robí výstup nepouÎzitený na analýzu. Dáva aj falošnú istotu ohladdom súladu.
Hybridná detekcia to opravuje. Kombinuje regex, NLP a hodnotenie transformerom. Dáta zostanú uÎzitocné po anonymizácii. Skutocné mená osob sú odstranené. Nálepky znaciek, pojmy miest a identifikátory produktov zostanú.
Ak ste opustili Presidio kvôli problémom s falošnymi poplachmi, toto je cesta vpred. Nie nová konfigurácia rovnakého modelu. Odlišná architektúra vytvorená pre kontexty obchodnych dokumentov.
Zdroje
Priva PII Benchmark 2024: Vyhodnotenie presnosti Presidio.
Microsoft Presidio: Podporované entity a architektúra modelu.