Presidio 22,7 % tikslumo problema
Klaidingai teigiami PII aptikimo atvejai daro realią žalą. Kai 77,3 % to, ką jūsų įrankis pažymi kaip 'asmenvardžius', nėra tikri vardai, jūs ne apsaugote privatumą. Jūs gadinate duomenis.
2024 m. lyginamoji analizė išbandė Microsoft Presidio numatytąjį NER modelį verslo dokumentuose. Testas apėmė finansines ataskaitas, klientų laiškus, produktų dokumentus ir palaikymo užklausas. Rezultatas: 22,7 % tikslumas vardų aptikimui.
Tas skaičius stulbinantis. Iš kiekvieno 100 pažymėtų elementų 23 yra tikri asmenų vardai. Kiti 77 yra klaidingai teigiami -- produktų žymės, prekių ženklų terminai arba miestų pavadinimai.
Trys iš keturių aptikimų yra klaidingi. Tai ne smulkus kalibravimo klausimas. Tai sugadintas įrankis verslo dokumentų darbui.
Kodėl taip atsitinka
Presidio pagal nutylėjimą naudoja spaCy modelį en_core_web_lg. Šis modelis mokėsi iš naujienų tekstų. Naujienose dauguma tikrinių daiktavardžių yra tikri žmonės arba vietos.
Verslo dokumentai yra kitokie.
Produktų žymės, panašios į asmenvardžius. 'Apple iPhone 15 Pro siuntimo įrašai' pažymimi kaip ASMUO. Taip pat ir 'Samsung Galaxy Tab' bei 'Cisco Meraki diegimas'.
Įmonės terminai su vardams panašiomis dalimis. Sakinyje 'Johnson Controls rezultatai' žodis 'Johnson' pažymimas kaip ASMUO. 'Goldman Sachs portfelis' sukelia tą pačią klaidą.
Vietovardžiai, suaktyvinantys asmenų aptikimą. 'Victoria Harbour projektas' pažymi 'Victoria' kaip ASMUO. 'Santiago centras' pažymi 'Santiago' taip pat.
Modelis neturi konteksto, kad atskirtų 'Apple' (įmonę) nuo 'Apple Smith' (asmenį). Ta spraga yra daugumos klaidingų teigiamų šaknis. Naujienų tekstai jį išmokė laikyti tikriniais daiktavardžiais žmones ar vietas. Verslo tekstas nuolat laužo tą taisyklę.
Poveikis tolesniam apdorojimui
Duomenų įmonė naudojo Presidio kliento apklausoms išvalyti prieš jas bendrindama. Auditas rado keturias problemas. Pirma, 40 % apklausų turėjo klaidingai pašalintas produktų žymes. Antra, miestų pavadinimai buvo ištrinti iš kiekvieno atsakymo. Trečia, prekių ženklų paminėjimai buvo pašalinti iš analizės rinkinio. Ketvirta, nuotaikos dėl konkrečių produktų nebuvo įmanoma perskaityti.
Analizės komanda gavo redaguotą tekstą su pašalintomis visomis produktų nuorodomis. Apklausoje iš pradžių buvo paminėtas iPhone Pro ir Apple įkroviklis. Ta reikšmė dingo.
Įmonė ne geriau apsaugojo privatumą. Ji gadino duomenis negavusi atitikties naudos. Presidio buvo pakeistas po audito.
Žr. mūsų atitikties apžvalgą apie tai, kaip aptikimo kokybė veikia jūsų reguliacinę padėtį.
Geresnis metodas: hibridinis aptikimas
Problema nėra unikali Presidio. Žetono lygio NER be konteksto visada turės šią problemą. Sprendimas yra kontekstui jautrus aptikimas.
Kodėl transformeriai padeda: Modelis kaip XLM-RoBERTa skaito visą sakinį. 'Apple paskelbė savo pajamas' -- Apple yra įmonė. 'Apple Smith prisijungė prie komandos' -- Apple yra vardas. Kontekstas pasako, kuris yra kuris.
Tai pagerina tikslumą išlaikant aukštą atkūrimą. Žr. palyginimą žemiau.
| Metodas | Tikslumas | Atkūrimas |
|---|---|---|
| Presidio numatytasis NER | 22,7 % | ~85 % |
| Tik regex | ~95 % | ~40 % |
| Hibridinis (Regex + NLP + Transformer) | ~85 % | ~80 % |
Hibridinis metodas pasiekia 85 % tikslumą. Tai reiškia 15 % klaidingų teigiamų rodiklį. Daug geriau nei 77,3 %. Verslo dokumentams šis skirtumas svarbus.
Hibridinis paketas turi keturis žingsnius:
-
Regex sluoksnis: randa struktūrinius ID -- el. pašto adresus, telefono numerius, SSN, IBAN. Formatai yra fiksuoti, todėl klaidingai teigiami yra reti. Tai veikia pirmiausia.
-
NLP sluoksnis (spaCy): standartinis NER žmonėms, įmonėms ir vietoms. Didelis atkūrimas, mažesnis tikslumas.
-
Transformer sluoksnis (XLM-RoBERTa): perpvertina kiekvieną NLP rezultatą naudodamas visą sakinio kontekstą. 'Apple' produkto kontekste praranda savo objekto įvertį. 'John' skundo tekste jį gauna.
-
Pasitikėjimo slenkstis: tik rezultatai virš nustatyto balo patenka į išvestį. Padidinkite slenkstį analitikos naudojimo atvejams. Sumažinkite jį HIPAA de-identifikavimui.
Rezultatai po perjungimo
Analitikos įmonė perėjo prie hibridinio aptikimo. Laimėjimai buvo akivaizdūs. Produktų žymių klaidingai teigiami sumažėjo nuo 40 % iki 3 %. Miestų pavadinimų klaidingai teigiami sumažėjo iki beveik nulio. Tikros tapatybės atkūrimas išliko ~82 %, šiek tiek sumažėjęs nuo 85 %, tačiau tikslumas labai pagerėjo.
Apklausos vėl tapo naudingomis. 'iPhone', 'Apple', 'Samsung' ir 'Chicago' liko tekste. Klientų vardai skundų kontekstuose buvo teisingai pašalinti.
Hibridinis aptikimas reikalauja daugiau skaičiavimų. Dideliems darbams vykdymo laikas šiek tiek ilgesnis. Daugeliui verslo naudojimo atvejų tikslumo laimėjimas to vertas. Įmonė vėl galėjo atlikti analizę. Tai ir buvo apklausos duomenų tikslas.
Skaitykite apie mūsų aptikimo metodą saugos apžvalgoje.
Kada aukšti klaidingai teigiamų rodikliai yra priimtini
Kai kurie atvejai teikia pirmenybę atkūrimui prieš tikslumą.
HIPAA 'Safe Harbor': praleisti tikrą teigiamą yra pažeidimas. 10 % klaidingai teigiamų rodiklis yra gerai, jei tikras PHI niekada neprametamas. Perteklinis šalinimas yra saugesnis nei nepakankamas šalinimas.
Teisinė peržiūra: praleistas privilegijuotas kontaktas gali panaikinti privilegiją. Klaidingai teigiami reikalauja peržiūros, bet nesukuria atsakomybės.
Verslo analitika: perteklinis šalinimas gadina duomenis negaunant atitikties naudos. Tikslumas čia svarbesnis. Naudokite hibridinį metodą su aukštu pasitikėjimo slenksčiu. Tai išlaiko prekių ženklų žymes ir miestų terminus išvestyje. Pašalinami tik tikri asmenvardžiai.
Tinkamas balansas priklauso nuo jūsų naudojimo atvejo. Įrankiai, leidžiantys nustatyti slenkstį, suteikia jums kontrolę. Joks vienintelis numatytasis nustatymas netinka kiekvienam kontekstui.
Žr. mūsų DUK dažniausiai užduodamų klausimų apie slenksčius ir aptikimo režimus.
Išvada
22,7 % tikslumo rodiklis reiškia, kad 3 iš 4 aptikimų yra klaidingi. Verslo dokumentams tai padaro išvestį nenaudingą analizei. Tai taip pat suteikia klaidingą pasitikėjimą atitiktimi.
Hibridinis aptikimas tai ištaiso. Jis derina regex, NLP ir transformer įvertinimą. Duomenys išlieka naudingi po anonimiškumo užtikrinimo. Tikri asmenvardžiai pašalinami. Prekių ženklų žymės, miestų terminai ir produktų identifikatoriai lieka.
Jei palikote Presidio dėl klaidingai teigiamų problemų, tai yra kelias į priekį. Ne nauja to paties modelio konfigūracija. Kitokia architektūra, sukurta verslo dokumentų kontekstams.
Šaltiniai
Priva PII lyginamoji analizė 2024: Presidio tikslumo įvertinimas. PATIKRINTA IŠORIŠKAI.
Microsoft Presidio: Palaikomi objektai ir modelio architektūra. PATIKRINTA IŠORIŠKAI.
spaCy: en_core_web_lg mokymo duomenys ir apribojimai. PATIKRINTA IŠORIŠKAI.