Nákvæmnivandinn í Presidio: 22,7%

Falskt jákvæðar niðurstöður í PII-greiningu valda raunverulegum skaða. Þegar 77,3% af því sem verkfærið flaggar sem "persónunöfn" eru ekki raunveruleg nöfn, verndarðu ekki friðhelgi. Þú ert að eyðileggja gögn.

Viðmiðunarprófun árið 2024 prófaði sjálfgefið NER-líkan Microsoft Presidio á viðskiptaskjölum. Prófunin náði yfir fjárhagsskýrslur, viðskiptavinabréf, vöruskjöl og þjónustufyrirspurnir. Niðurstaðan: 22,7% nákvæmni við nafnagreiningu.

Þessi tala er áhrifamikil. Af 100 flaggaðum liðum eru 23 raunveruleg einstaklingsnöfn. Hin 77 eru falskt jákvæðar — vörumerki, hlutabréfatákn eða borgarheiti.

Þrjár af hverjum fjórum greiningum eru rangar. Þetta er ekki minniháttar kvörðunarvandi. Þetta er bilað verkfæri fyrir vinnslu viðskiptaskjala.

Af hverju þetta gerist

Presidio notar en_core_web_lg líkan spaCy að sjálfgefnu. Þetta líkan lærði af fréttatexta. Í fréttum eru flestar sérheiti raunveruleg mannanöfn eða staðarheiti.

Viðskiptaskjöl eru önnur saga.

Vörumerki sem líkjast persónunöfnum. "Apple iPhone 15 Pro sendingarskráningar" er flaggað sem PERSON. Sama gildir um "Samsung Galaxy Tab" og "Cisco Meraki uppsetning."

Fyrirtækjaheiti með nafnlíkum hlutum. Í "Johnson Controls niðurstöður" er orðið "Johnson" flaggað sem PERSON. "Goldman Sachs safn" kveikir sömu villu.

Staðarheiti sem kveikja nafnagreiningu. "Victoria Harbour verkefni" flaggar "Victoria" sem PERSON. "Santiago miðstöð" flaggar "Santiago" á sama hátt.

Líkanið skortir samhengi til að greina "Apple" (fyrirtæki) frá "Apple Smith" (manneskja). Sá munur er rót flestra falskt jákvæðra niðurstaðna. Fréttatexti kenndi því að meðhöndla sérheiti sem fólk eða staði. Viðskiptatexti brýtur þá reglu stöðugt.

Niðurstreymisáhrifin

Gagnafyrirtæki notaði Presidio til að hreinsa viðskiptavinakannanir áður en þær voru deildar. Endurskoðun fann fjögur vandamál. Í fyrsta lagi höfðu 40% kannana vörumerki ranglega fjarlægt. Í öðru lagi voru borgarheiti þurrkaðar út úr öllum svörum. Í þriðja lagi voru vörumerki þurrkuð úr greiningarsafninu. Í fjórða lagi var ekki hægt að lesa upplifunargreiningu um sérstakar vörur.

Greiningateymið fékk ritskoðaðan texta þar sem allar vísanir í vörur voru fjarlægðar. Kannanin hafði upphaflega nefnt iPhone Pro og Apple hleðslutæki. Sú merking var horfin.

Fyrirtækið var ekki að vernda friðhelgi betur. Það var að brjóta gögn án þess að öðlast reglufylgni. Presidio var skipt út eftir endurskoðunina.

Sjá reglufylgniyfirlit okkar til að skilja hvernig greiningar gæði hefur áhrif á lagalegar skyldur þínar.

Betri nálgun: Blendingsgreining

Vandinn er ekki einstakur fyrir Presidio. NER á táknarstigi án samhengis mun alltaf hafa þetta vandamál. Lausnin er samhengismeðvæt greining.

Af hverju umbreytingarlíkön hjálpa: Líkan eins og XLM-RoBERTa les heila setninguna. "Apple tilkynnti hagnað sinn" → Apple er fyrirtæki. "Apple Smith gekk til liðs við teymið" → Apple er fornafn. Samhengið segir þér hvort er hvað.

Þetta bætir nákvæmni á meðan hlutfall endurheimtu helst hátt. Sjá samanburðinn hér að neðan.

Nálgun	Nákvæmni	Endurheimta
Presidio sjálfgefin NER	22,7%	~85%
Aðeins regex	~95%	~40%
Blendings (Regex + NLP + Umbreyting)	~85%	~80%

Blendingsnálgunin nær 85% nákvæmni. Það þýðir 15% falskt jákvæð hlutfall. Mun betra en 77,3%. Fyrir viðskiptaskjöl skiptir þessi munur máli.

Blendingsstaflan hefur fjögur skref:

Regex-lag: Finnur skipulagðar auðkennir — tölvupóstar, símanúmer, SSN, IBAN. Snið eru föst, svo falskt jákvæðar eru sjaldgæfar. Þetta keyrir fyrst.
NLP-lag (spaCy): Venjuleg NER fyrir fólk, fyrirtæki og staði. Há endurheimta, lægri nákvæmni.
Umbreytingarlag (XLM-RoBERTa): Endurmetur hverja NLP-niðurstöðu með fullum setningarsamhengi. "Apple" í vörumerkjasamhengi missir einingastig sitt. "Jón" í kvörtunarsamhengi hlýtur það.
Áreiðanleikaþröskuldur: Aðeins niðurstöður yfir ákveðnu stigi ná til úttaksins. Hækkaðu þröskuldinn fyrir greiningartilvik. Lækkaðu hann fyrir HIPAA-nafnleysi.

Niðurstöður eftir skipti

Greiningafyrirtækið skiptaði yfir í blendingsgreiningu. Ávinningurinn var skýr. Falskt jákvæðar á vörumerkjum féllu frá 40% í 3%. Falskt jákvæðar á borgarheitum féllu næstum í núll. Raunveruleg nafnaendurheimta stóð í ~82%, lítið eitt niður frá 85%, en nákvæmni batnaði mikið.

Kannanir urðu nothæfar aftur. "iPhone", "Apple", "Samsung" og "Chicago" héldu sér í textanum. Rétt nöfn viðskiptavina í kvörtunarsamhengi voru rétt fjarlægð.

Blendingsgreining krefst meiri útreikninga. Fyrir stór verk eru keyrslutímar nokkuð lengri. Fyrir flestar viðskiptalegar notkunartegundir er nákvæmnivinningurinn þess virði. Fyrirtækið gat keyrt greininguna aftur. Þetta var tilgangur kannanagagnanna.

Lestu um greiningaraðferð okkar í öryggisyfirlitinu.

Þegar hátt falskt jákvætt hlutfall er ásættanlegt

Sumar aðstæður forgangsraða endurheimtu fram yfir nákvæmni.

HIPAA Safe Harbor: Að missa raunverulegt jákvætt er brot. 10% falskt jákvæð hlutfall er fínt ef raunverulegt PHI er aldrei misst. Offjarlæging er öruggari en vanfjarlæging.

Lögfræðileg endurskoðun: Að missa forréttindaðila getur fellt niður forréttindi. Falskt jákvæðar þarfnast endurskoðunar en skapar ekki ábyrgð.

Viðskiptagreining: Offjarlæging brýtur gögn án reglufylgniávinnings. Nákvæmni skiptir meira máli hér. Notaðu blendingsnálgun með háan áreiðanleikaþröskuldur. Þetta heldur vörumerkjum og borgarheitum í úttakinu. Aðeins raunveruleg persónunöfn eru fjarlægð.

Rétt jafnvægi fer eftir notkunartilvikinu þínu. Verkfæri sem leyfa þér að stilla þröskuldinn gefa þér stjórnina. Engin ein sjálfgefin stilling virkar fyrir allt samhengi.

Sjá FAQ okkar fyrir algengar spurningar um þröskulda og greiningarham.

Niðurstaða

22,7% nákvæmnihlutfall þýðir að 3 af hverjum 4 greiningum eru rangar. Fyrir viðskiptaskjöl gerir það úttak ónothæft fyrir greiningu. Það gefur einnig ranga öryggisvísur um reglufylgni.

Blendingsgreining lagar þetta. Hún sameinar regex, NLP og umbreytingarskorun. Gögn haldast gagnleg eftir nafnleysi. Raunveruleg persónunöfn eru fjarlægð. Vörumerki, borgarheiti og vöruauðkenni haldast.

Ef þú fórst frá Presidio vegna vandamála með falskt jákvæðar, er þetta leiðin áfram. Ekki ný uppsetning á sama líkani. Önnur byggingarfræði smíðuð fyrir viðskiptaskjalasamhengi.

Heimildir

Priva PII Benchmark 2024: Nákvæmnimat Presidio. STAÐFEST-UTANAÐKOMANDI.

Microsoft Presidio: Studdar einingar og líkanabyggingarfræði. STAÐFEST-UTANAÐKOMANDI.

spaCy: en_core_web_lg þjálfunargögn og takmarkanir. STAÐFEST-UTANAÐKOMANDI.

Tengdar Greinar

Tæknilegt

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

Byrjaðu Ókeypis Prufu Skoða Eiginleika

Nákvæmnivandinn í Presidio: 22,7%