Tatizo la Usahihi wa 22.7% la Presidio

Matokeo ya uongo katika ugunduzi wa PII husababisha uharibifu wa kweli. Wakati 77.3% ya kile ambacho chombo chako kinachoweka alama kama "majina ya watu" si majina halisi, haulindi faragha. Unaharibu data.

Kipimo cha mwaka 2024 kilipima muundo wa NER chaguo-msingi wa Microsoft Presidio kwenye hati za biashara. Jaribio lilijumuisha ripoti za fedha, barua za wateja, hati za bidhaa, na tiketi za usaidizi. Matokeo: usahihi wa 22.7% kwa ugunduzi wa majina.

Nambari hiyo inashangaza. Kwa kila vipengele 100 vilivyowekwa alama, 23 ni majina halisi ya watu binafsi. Vingine 77 ni matokeo ya uongo -- lebo za bidhaa, istilahi za chapa, au lebo za mji.

Tatu kati ya nne ya ugunduzi ni mbaya. Hiyo si suala dogo la usanidi. Hiyo ni chombo kilichovunjika kwa kazi ya hati za biashara.

Kwa Nini Hii Hutokea

Presidio hutumia muundo wa en_core_web_lg wa spaCy chaguo-msingi. Muundo huu ulijifunza kutoka kwa maandishi ya habari. Katika habari, nomino nyingi maalum ni watu halisi au maeneo.

Hati za biashara ni tofauti.

Lebo za bidhaa zinazofanana na majina ya watu binafsi. "Rekodi za usafirishaji wa Apple iPhone 15 Pro" inawekwa alama kama PERSON. Vivyo hivyo "Samsung Galaxy Tab" na "utekelezaji wa Cisco Meraki."

Istilahi za kampuni zenye sehemu zinazofanana na majina. Katika "matokeo ya Johnson Controls," neno "Johnson" linawekwa alama kama PERSON. "Mkoba wa Goldman Sachs" husababisha kosa hilo hilo.

Lebo za eneo zinazosababisha ugunduzi wa mtu. "Mradi wa Victoria Harbour" huweka alama "Victoria" kama PERSON. "Kitovu cha Santiago" huweka alama "Santiago" vivyo hivyo.

Muundo haukuwa na muktadha wa kutofautisha "Apple" (kampuni) kutoka kwa "Apple Smith" (mtu). Pengo hilo ndilo chanzo cha matokeo mengi ya uongo. Maandishi ya habari yalimfundisha kutibu nomino maalum kama watu au maeneo. Maandishi ya biashara huvunja sheria hiyo kila wakati.

Athari kwa Chini ya Mkondo

Kampuni ya data ilitumia Presidio kusafisha tafiti za wateja kabla ya kuzishiriki. Ukaguzi uligundua matatizo manne. Kwanza, 40% ya tafiti zilikuwa na lebo za bidhaa zilizoondolewa vibaya. Pili, lebo za mji ziliondolewa kutoka kila jibu. Tatu, kutajwa kwa chapa kulifutwa kutoka kwenye seti ya uchambuzi. Nne, hisia kuhusu bidhaa maalum hazikuweza kusomwa.

Timu ya uchambuzi ilipokea maandishi yaliyofutwa pamoja na marejeo yote ya bidhaa yaliyoondolewa. Tafiti awali iliitaja iPhone Pro na chaja ya Apple. Maana hiyo ilikwenda.

Kampuni haikulinda faragha vizuri zaidi. Ilikuwa ikiharibu data bila kupata utiifu. Presidio ilibadilishwa baada ya ukaguzi.

Angalia muhtasari wetu wa utiifu kwa jinsi ubora wa ugunduzi unavyoathiri hali yako ya udhibiti.

Mbinu Bora: Ugunduzi wa Mseto

Tatizo si la kipekee kwa Presidio. NER ya kiwango cha ishara bila muktadha itakuwa na suala hili daima. Suluhisho ni ugunduzi unaojua muktadha.

Kwa nini transformer husaidia: Muundo kama XLM-RoBERTa husoma sentensi nzima. "Apple ilitangaza mapato yake" → Apple ni kampuni. "Apple Smith alijiunga na timu" → Apple ni jina la kwanza. Muktadha unakuambia ni yupi.

Hii inaboresha usahihi huku ukikumbatia ukumbushi wa juu. Angalia ulinganisho hapa chini.

Mbinu	Usahihi	Ukumbushi
NER chaguo-msingi ya Presidio	22.7%	~85%
Regex peke yake	~95%	~40%
Mseto (Regex + NLP + Transformer)	~85%	~80%

Mbinu ya mseto inafikia usahihi wa 85%. Hiyo kunamaanisha kiwango cha matokeo ya uongo cha 15%. Bora sana kuliko 77.3%. Kwa hati za biashara, pengo hili linaathiri.

Mrundikano wa mseto una hatua nne:

Safu ya Regex: Inapata vitambulisho vilivyoundwa -- barua pepe, nambari za simu, SSN, IBAN. Miundo ni imara, kwa hivyo matokeo ya uongo ni nadra. Hii inafanya kwanza.
Safu ya NLP (spaCy): NER ya kawaida kwa watu, makampuni, na maeneo. Ukumbushi wa juu, usahihi mdogo.
Safu ya Transformer (XLM-RoBERTa): Inapanga upya kila matokeo ya NLP ukitumia muktadha kamili wa sentensi. "Apple" katika muktadha wa bidhaa hupoteza alama yake ya kipengele. "John" katika maandishi ya malalamiko huipata.
Kizingiti cha uaminifu: Matokeo yaliyo juu ya alama iliyowekwa peke yake yanaingia kwenye pato. Ongeza kizingiti kwa matumizi ya uchambuzi. Punguza kwa utambuzi wa HIPAA.

Matokeo Baada ya Kubadilisha

Kampuni ya uchambuzi ilibadilisha hadi ugunduzi wa mseto. Faida zilikuwa wazi. Matokeo ya uongo ya lebo za bidhaa yalishuka kutoka 40% hadi 3%. Matokeo ya uongo ya lebo za mji yalishuka karibu na sifuri. Ukumbushi wa utambulisho halisi ulibaki ~82%, chini kidogo kutoka 85%, lakini usahihi uliboreshwa sana.

Tafiti zikawa zinaweza kutumika tena. "iPhone," "Apple," "Samsung," na "Chicago" zilibaki kwenye maandishi. Majina ya wateja katika muktadha wa malalamiko yaliondolewa kwa usahihi.

Ugunduzi wa mseto huchukua hesabu zaidi. Kwa kazi kubwa, nyakati za uendeshaji ni ndefu kidogo. Kwa matumizi mengi ya biashara, faida ya usahihi inastahili. Kampuni iliweza kuendesha uchambuzi tena. Hiyo ndiyo lengo lote la data ya tafiti.

Soma kuhusu mbinu yetu ya ugunduzi katika muhtasari wa usalama.

Wakati Viwango vya Juu vya Matokeo ya Uongo Vinakubalika

Baadhi ya hali zinapendelea ukumbushi juu ya usahihi.

HIPAA Safe Harbor: Kukosa kweli kunahusika ni ukiukaji. Kiwango cha matokeo ya uongo cha 10% ni sawa ikiwa PHI halisi haifikaatikwahi. Kuondoa kupita kiasi ni salama zaidi kuliko kuondoa kwa pungufu.

Ukaguzi wa kisheria: Kukosa mawasiliano yenye haki kunaweza kuacha haki. Matokeo ya uongo yanahitaji ukaguzi lakini hayazalishi dhima.

Uchambuzi wa biashara: Kuondoa kupita kiasi huvunja data bila faida ya utiifu. Usahihi unaathiri zaidi hapa. Tumia mbinu ya mseto yenye kizingiti cha juu cha uaminifu. Hii huhifadhi lebo za chapa na istilahi za mji kwenye pato. Majina ya watu halisi peke yake yanaondolewa.

Usawa sahihi unategemea matumizi yako. Zana zinazokuruhusu kuweka kizingiti hukupa udhibiti. Hakuna chaguo-msingi moja linalofanya kazi kwa kila muktadha.

Angalia Maswali Yanayoulizwa Mara kwa Mara kwa maswali ya kawaida kuhusu vizingiti na hali za ugunduzi.

Hitimisho

Kiwango cha usahihi wa 22.7% kunamaanisha ugunduzi 3 kati ya 4 ni mbaya. Kwa hati za biashara, hiyo hufanya pato lisiweze kutumika kwa uchambuzi. Pia hutoa imani ya uongo kuhusu utiifu.

Ugunduzi wa mseto hutatua hili. Unajumuisha regex, NLP, na alama za transformer. Data inabaki inayofaa baada ya kutowekwa. Majina halisi ya watu yanaondolewa. Lebo za chapa, istilahi za mji, na vitambulisho vya bidhaa vinabaki.

Ukiondoka Presidio kwa sababu ya masuala ya matokeo ya uongo, hii ndiyo njia ya mbele. Si usanidi mpya wa muundo huo huo. Usanifu tofauti uliojengwa kwa muktadha wa hati za biashara.

Vyanzo

Kipimo cha PII cha Priva 2024: Tathmini ya Usahihi wa Presidio. IMEHAKIKISHWA-NJE.

Microsoft Presidio: Vipengele Vinavyoungwa mkono na Usanifu wa Muundo. IMEHAKIKISHWA-NJE.

spaCy: Data ya Mafunzo ya en_core_web_lg na Mipaka. IMEHAKIKISHWA-NJE.

Makala Zinazohusiana

Kitaalamu

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

Anza Jaribio la Bure Tazama Vipengele

Tatizo la Usahihi wa 22.7% la Presidio