Problem natancnosti Presidio: 22,7 %
Lazni pozitivni rezultati pri zaznavanju PII povzrocajo resnicno škodo. Ce je 77,3 % tistega, kar vaše orodje oznaci kot "ime osebe", v resnici ne prave ime, ne ščitite zasebnosti. Unicujete podatke.
Primerjalna analiza iz leta 2024 je testirala privzeti model NER Microsoft Presidio na poslovnih dokumentih. Test je zajemal financna porocila, pisma strankam, dokumentacijo izdelkov in zahtevke za podporo. Rezultat: 22,7-odstotna natancnost za zaznavanje imen.
Ta število je presenetljivo. Na vsakih 100 oznacenih elementov je 23 resnicnih individualnih imen. Ostalih 77 so lazni pozitivni -- oznake izdelkov, blagovne znamke ali oznake mest.
Tri od stirih zaznav so napacne. To ni manjša kalibracijaska tezava. To je pokvarjeno orodje za delo s poslovnimi dokumenti.
Zakaj se to dogaja
Presidio privzeto uporablja SpaCyjev model en_core_web_lg. Ta model se je ucil na novinarskih besedilih. V novicah je vecina lastnih imen resnicnih oseb ali krajev.
Poslovni dokumenti so drugacni.
Oznake izdelkov, ki izgledajo kot imena posameznikov. "Zapisnik o pošiljki Apple iPhone 15 Pro" dobi oznako PERSON. Enako se zgodi z "Samsung Galaxy Tab" in "Cisco Meraki deployment."
Poslovni izrazi z deli, ki spominjajo na imena. V besedilu "rezultati Johnson Controls" je beseda "Johnson" oznacena kot PERSON. "Portfelj Goldman Sachs" sproži enako napako.
Oznake krajev, ki sprozijo zaznavanje oseb. "Projekt Victoria Harbour" oznaci "Victoria" kot PERSON. Na enak nacin se oznaci "Santiago hub".
Modelu manjka kontekst, ki bi locil med "Apple" (podjetje) in "Apple Smith" (oseba). Ta vrzel je koren vecine laznih pozitivnih rezultatov. Novinarska besedila so ga naucila, da obravnava lastna imena kot osebe ali kraje. Poslovni dokumenti to pravilo pogosto krsijo.
Posledice za nadaljnje postopke
Podjetje za analizo podatkov je uporabljalo Presidio za cišcenje anket strank pred deljenjem. Revizija je odkrila stiri tezave. Prvic, 40 % anket je imelo napacno odstranjene oznake izdelkov. Drugic, oznake mest so bile izbrisane iz vsakega odgovora. Tretjic, omembe blagovnih znamk so bile odstranjene iz analiznega nabora. Cetrtič, mnenja o dolocenih izdelkih ni bilo mogoce prebrati.
Analitska ekipa je prejela redaktiran tekst z odstranjenimi vsemi referencami na izdelke. Anketa je prvotno omenjala iPhone Pro in polnilnik Apple. Ta pomen je bil izgubljen.
Podjetje ni bolje ščitilo zasebnosti. Unicevalo je podatke brez pridobivanja skladnosti. Po reviziji so zamenjali Presidio.
Si oglejte nas pregled skladnosti, kako kakovost zaznavanja vpliva na vašo regulativno ureditev.
Boljši pristop: hibridno zaznavanje
Ta problem ni edinstven za Presidio. NER na ravni zetonov brez konteksta bo vedno imel to tezavo. Rešitev je kontekstno zaznavanje.
Zakaj transformatorji pomagajo: Model, kot je XLM-RoBERTa, prebere celoten stavek. "Apple je objavil svoje zasluzke" -- Apple je podjetje. "Apple Smith se je pridruzil ekipi" -- Apple je ime. Kontekst pove razliko.
To izboljša natancnost ob ohranitvi visoke kolicine pravilno zaznanih primerov. Oglejte si primerjavo spodaj.
| Pristop | Natancnost | Zaznavanje |
|---|---|---|
| Presidio privzeti NER | 22,7 % | ~85 % |
| Samo regex | ~95 % | ~40 % |
| Hibridni (Regex + NLP + Transformator) | ~85 % | ~80 % |
Hibridni pristop dosega 85-odstotno natancnost. To pomeni 15-odstotno stopnjo laznih pozitivnih. Veliko bolje kot 77,3 %. Za poslovne dokumente je ta razlika pomembna.
Hibridni sklad ima stiri korake:
-
Plast Regex: Najde strukturirane ID-je -- e-poštne naslove, telefonske stevilke, SSN, IBAN. Formati so fiksni, zato so lazni pozitivni redki. Ta plast deluje prva.
-
Plast NLP (spaCy): Standardni NER za osebe, podjetja in kraje. Visoka stopnja zaznavanja, nižja natancnost.
-
Plast transformatorja (XLM-RoBERTa): Znova oceni vsak rezultat NLP z upoštevanjem konteksta celotnega stavka. "Apple" v kontekstu izdelka izgubi svojo oznako entitete. "John" v besedilu pritožbe jo pridobi.
-
Prag zaupanja: Do izhoda pridejo le zadetki nad doloceno oceno. Dvignite prag za primere analize. Znizajte ga za deidentiikacijo HIPAA.
Rezultati po zamenjavi
Analiticno podjetje je prešlo na hibridno zaznavanje. Izboljšave so bile jasne. Lazni pozitivni za oznake izdelkov so padli s 40 % na 3 %. Lazni pozitivni za oznake mest so se zmanjšali skoraj na nic. Zaznavanje resnicnih identitet je ostalo na ~82 %, rahlo pod 85 %, a natancnost se je mocno izboljšala.
Ankete so postale spet uporabne. "iPhone", "Apple", "Samsung" in "Chicago" so ostali v besedilu. Imena strank v kontekstu pritožb so bila pravilno odstranjena.
Hibridno zaznavanje porabi vec racunalniških virov. Pri velikih nalogah so casi izvajanja nekoliko daljši. Za vecino poslovnih primerov je dobitek pri tocnosti tega vreden. Podjetje je spet lahko opravljalo analizo. To je bil celotni namen podatkov anket.
Preberite o našem pristopu k zaznavanju v pregledu varnosti.
Ko so visoke stopnje laznih pozitivnih sprejemljive
Nekateri primeri dajejo prednost zaznavanju pred natancnostjo.
Varna luka HIPAA: Spregledati resnicen pozitiven rezultat pomeni kršitev. 10-odstotna stopnja laznih pozitivnih je sprejemljiva, ce se pravi PHI nikoli ne spregleda. Prekomerno odstranjevanje je varnejše od premajhnega.
Pravni pregled: Spregledati privilegiran stik lahko pomeni odpoved privilegija. Lazni pozitivni zahtevajo pregled, a ne ustvarjajo odgovornosti.
Poslovna analitika: Prekomerno odstranjevanje unici podatke brez pridobivanja skladnosti. Natancnost je tukaj pomembnejša. Uporabite hibridni pristop z visokim pragom zaupanja. S tem ohranite oznake blagovnih znamk in krajev v izhodu. Odstranijo se le dejanska imena oseb.
Pravicno ravnovesje je odvisno od vašega primera uporabe. Orodja, ki vam omogocajo nastavljanje praga, vam dajejo nadzor. Nobena privzeta nastavitev ne deluje za vsak kontekst.
Si oglejte naš FAQ za pogosta vprašanja o pragih in nacinih zaznavanja.
Zakljucek
22,7-odstotna natancnost pomeni, da so 3 od 4 zaznav napacne. Za poslovne dokumente to naredi izhod neuporaben za analizo. Daje tudi lazno zaupanje glede skladnosti.
Hibridno zaznavanje to popravi. Združuje regex, NLP in vrednotenje transformatorja. Podatki ostanejo koristni po anonimizaciji. Resnicna imena oseb so odstranjena. Oznake blagovnih znamk, izrazi za kraje in identifikatorji izdelkov ostanejo.
Ce ste zapustili Presidio zaradi tezav z laznimi pozitivnimi, je to pot naprej. Ne nova konfiguracija istega modela. Drugacna arhitektura, zgrajena za kontekst poslovnih dokumentov.
Viri
Priva PII Benchmark 2024: Ocena natancnosti Presidio.