Presidio 22,7% täpsusprobleem
Valepositive'id PII tuvastamisel tekitavad tõelist kahju. Kui 77,3% sellest, mida teie tööriist märgistab "isiku nimedeks", ei ole tegelikud nimed, ei kaitse te privaatsust. Te hävitate andmeid.
- aasta vordlustestis testiti Microsoft Presidio vaikimisi NER-mudelit äridokumentidel. Test hõlmas finantsaruandeid, kliendkirju, tootedokumente ja tugipilette. Tulemus: 22,7% täpsus nimetuvastuses.
See arv on rabav. Iga 100 märgistatud elemendi kohta on 23 tegelikud individuaalsed nimed. Ülejäänud 77 on valepositive'id - toote sildid, kaubamärgi terminid või linna sildid.
Kolm neljast tuvastusest on valed. See ei ole väike kalibreeringuprobleem. See on katki tööriist äridokumentide töös.
Miks see juhtub
Presidio kasutab vaikimisi spaCy en_core_web_lg mudelit. See mudel õppis uudistekstist. Uudistes on enamik pärisnimesid tegelikud inimesed või kohad.
Äridokumendid on erinevad.
Toote sildid, mis näevad välja nagu individuaalsed nimed. "Apple iPhone 15 Pro saadetise rekordid" märgistatakse kui PERSON. Sama juhtub "Samsung Galaxy Tab" ja "Cisco Meraki juurutusega".
Ettevõtte terminid nimesarnaste osadega. "Johnson Controls tulemustes" märgistatakse sõna "Johnson" kui PERSON. "Goldman Sachsi portfell" käivitab sama vea.
Asukoha sildid, mis käivitavad isiku tuvastamise. "Victoria sadama projekt" märgistab "Victoria" PERSON-ina. "Santiago keskus" märgistab "Santiago" samamoodi.
Mudel ei suuda eristada "Apple" (ettevõte) ja "Apple Smith" (isik). See lõhe on enamiku valepositive'ide juur. Uudistekst õpetas seda kohtlema pärisnimesid inimeste või kohtadena. Äriteksтis rikutakse seda reeglit kogu aeg.
Allavoolu efekt
Üks andmefirma kasutas Presidiot kliendiküsitluste puhastamiseks enne nende jagamist. Audit leidis neli probleemi. Esiteks eemaldati 40% küsitlustest toote sildid valesti. Teiseks kistuti linna sildid igast vastusest välja. Kolmandaks pühiti kaubamärgi mainingud analüüsikomplektist. Neljandaks ei saanud konkreetsete toodete sentimenti lugeda.
Analüüsimeeskond sai redigeeritud teksti kõikide tooteviidete eemaldamisega. Küsitluses oli algselt mainitud iPhone Pro ja Apple laadijat. See tähendus oli kadunud.
Firma ei kaitsnud privaatsust paremini. See hävitas andmeid ilma vastavust saavutamata. Pärast auditit asendati Presidio.
Vaadake meie vastavuse ülevaadet selle kohta, kuidas tuvastuse kvaliteet mõjutab teie regulatiivset seisundit.
Parem lähenemine: hübriidtuvastus
Probleem ei ole ainulaadne Presidio jaoks. Märgitaseme NER ilma kontekstita omab seda probleemi alati. Lahendus on kontekstiühilduvusega tuvastus.
Miks transformerid aitavad: Mudel nagu XLM-RoBERTa loeb tervet lauset. "Apple teatas oma kasumist" - Apple on ettevõte. "Apple Smith liitus meeskonnaga" - Apple on eesnimi. Kontekst ütleb teile, kumb on kumb.
See parandab täpsust, säilitades kõrge tagasikutsumise. Vaadake allpool olevat võrdlust.
| Lähenemine | Täpsus | Tagasikutsuminen |
|---|---|---|
| Presidio vaikimisi NER | 22,7% | ~85% |
| Ainult regex | ~95% | ~40% |
| Hübriid (Regex + NLP + Transformer) | ~85% | ~80% |
Hübriidlähenemine saavutab 85% täpsuse. See tähendab 15% valepositive'i määra. Palju parem kui 77,3%. Äridokumentide jaoks on see vahe oluline.
Hübriidpinus on neli sammu:
-
Regex-kiht: Leiab struktureeritud ID-d - e-posti aadressid, telefoninumbrid, sotsiaalkindlustusnumbrid, IBAN-id. Formaadid on fikseeritud, seega on valepositive'id haruldased. See töötab esimesena.
-
NLP-kiht (spaCy): Standardne NER inimeste, firmade ja kohtade jaoks. Kõrge tagasikutsumine, madalam täpsus.
-
Transformerikild (XLM-RoBERTa): Hindab iga NLP tulemuse ümber, kasutades terve lause konteksti. "Apple" toote kontekstis kaotab oma üksuse skoori. "John" kaebuse tekstis saab skoori.
-
Usaldusläve: Ainult teatud skoorist kõrgemad tabamused lähevad väljundisse. Tõstke lävi analüütika kasutusjuhtudel. Alandage HIPAA de-identifitseerimiseks.
Tulemused pärast üleminekut
Analüütikafirma läks üle hübriidtuvastusele. Kasud olid selged. Toote sildi valepositive'id langesid 40%-lt 3%-le. Linna sildi valepositive'id langesid peaaegu nullini. Tegeliku identiteedi tagasikutsumine jäi ~82%-le, veidi alla 85%, kuid täpsus paranes palju.
Küsitlused said taas kasutatavaks. "iPhone", "Apple", "Samsung" ja "Chicago" jäid teksti. Kliendinimed kaebuste kontekstides eemaldati korrektselt.
Hübriidtuvastus nõuab rohkem arvutust. Suurte tööde jaoks on käitusajad veidi pikemad. Enamiku ärikasutusjuhtudel on täpsuse kasu seda väärt. Firma sai analüüsi uuesti käivitada. See oli küsitlusandmete mõte algusest peale.
Lugege meie tuvastuse lähenemisest turvaülevaates.
Millal kõrge valepositive'i määr on vastuvõetav
Mõnel juhul on tagasikutsumine olulisem kui täpsus.
HIPAA Safe Harbor: Tegeliku positiivse vahele jätmine on rikkumine. 10% valepositive'i määr on fine, kui tegelik PHI ei jää kunagi vahele. Üleeemaldamine on ohutum kui alleemaldamine.
Juriidiline ülevaatus: Privilegeeritud kontakti vahele jätmine võib privileegi loobuda. Valepositive'id vajavad ülevaatust, kuid ei tekita vastutust.
Ärianalüütika: Üleeemaldamine lõhub andmeid ilma vastavuse saavutamiseta. Täpsus on siin olulisem. Kasutage hübriidlähenemist kõrge usalduslävedega. See hoiab kaubamärgi sildid ja linna terminid väljundis. Ainult tegelikud isiku nimed eemaldatakse.
Õige tasakaal sõltub teie kasutusjuhtumist. Tööriistad, mis lasevad teil läve seada, annavad teile kontrolli. Ükski üks vaikimisi seadistus ei tööta igas kontekstis.
Vaadake meie KKK-d tavaliste küsimuste kohta lävede ja tuvastusrežiimide kohta.
Kokkuvote
22,7% täpsuse määr tähendab, et 3 neljast tuvastusest on valed. Äridokumentide jaoks muudab see väljundi analüüsiks kasutuskõlbmatuks. See annab ka vale kindlustunde vastavuse kohta.
Hübriidtuvastus lahendab selle. See ühendab regex, NLP ja transformeri hindamise. Andmed jäävad pärast anonymiseerimist kasutatavaks. Tegelikud isiku nimed eemaldatakse. Kaubamärgi sildid, linna terminid ja toote identifikaatorid jäävad alles.
Kui lahkusite Presidio'st valepositive'i probleemide tõttu, on see edasiminekutee. Mitte sama mudeli uus konfiguratsioon. Erinev arhitektuur, mis on ehitatud äridokumentide kontekstide jaoks.
Allikad
Priva PII Benchmark 2024: Presidio täpsuse hindamine. VERIFIED-EXTERNAL.
Microsoft Presidio: Toetatud üksused ja mudeli arhitektuur. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg koolitusandmed ja piirangud. VERIFIED-EXTERNAL.