Atjaunots 2026. gadam
22,7% precizitātes problēma
- gada pētījums pārbaudīja Microsoft Presidio uzņēmumu failos. Presidio ir atvērtā koda PII rīks. To plaši izmanto juridiskās komandas un veselības grupas.
Pētījums mērīja, cik bieži Presidio bija pareizi. No visiem vienumiem, ko tas atzīmēja kā personas vārdus, cik bija faktiski personas vārdi?
Atbilde bija 22,7%. Aptuveni 77 no katriem 100 karodziņiem bija nepareizi. Pētījums saskaitīja 13 536 nepareizus karodziņus 4 434 parauga failos.
Kļūdas nebija nejaušas. Tās sekoja skaidriem modeļiem:
- Vietniekvārdi atzīmēti kā cilvēki ("Es" teikuma sākumā)
- Kuģu etiķetes atzīmētas kā cilvēki ("ASL Scorpio")
- Uzņēmumu etiķetes atzīmētas kā cilvēki ("Deloitte & Touche")
- Valstu termini atzīmēti kā cilvēki ("Argentina", "Singapore")
Neviena no tām nav reta mala situācija. Tās parādās katru reizi, kad vispārīgs NLP modelis sastopas ar nozarei specifiskiem tekstiem. Modelis netika veidots, lai tās atšķirtu.
Ko izmaksā viltus karodziņi
Juridiskajos un veselības aprūpes darbos katrs karodziņš prasa reaģēšanu. Komandas saskaras ar trim iespējām. Visām trim ir reālas izmaksas.
1. iespēja: cilvēks pārbauda katru karodziņu. Jurista un eksperta laiks izmaksā 200 līdz 800 USD stundā. Pie 22,7% precizitātes apjoms ir milzīgs. Tas nav iespējams mērogā. Skat. eAtklāšanas PII automatizācija un juridiskās pārskatīšanas izmaksu samazināšana par to, kā pārskatīšanas izmaksas pieaug ar apjomu.
2. iespēja: izlaist pārskatīšanu un uzticēties izvadei. Tas arī ir riskanti. Kad 77% "redaktēto" vienumu nav sensitīvi, jūs radāt juridisko risku. Tiesas ir sodījušas juristus par pārmērīgu redakciju. Skat. eAtklāšanas pārmērīgas redakcijas sankcijas dokumentētiem gadījumiem.
3. iespēja: paaugstināt rādītāju slieksni. Presidio ļauj lietotājiem iestatīt score_threshold, lai noņemtu vājus karodziņus. 2024. gada DICOM pētījums to pārbaudīja pie 0,7 - diezgan augsta josla. Rezultāts: 38 no 39 DICOM attēliem joprojām bija viltus karodziņi. Sliekšņi palīdz. Tie nenovērš cēloni.
Kāpēc vispārīgais NLP šeit cīnās
Presidio plaisa rodas no neatbilstības starp apmācības datiem un reālo lietojumu.
Juridiskie faili ir pilni ar lielo burtu terminiem. Lietu nosaukumi, likumu virsraksti un eksponātu kodi liekas kā personas dati vispārīgam modelim. Tas tos atzīmē. Lielākā daļa nav personas dati.
Veselības faili pievieno zāļu nosaukumus, ierīču kodus un klīniskus saīsinājumus. "Pt." nozīmē pacients. "Dr." nozīmē ārsts. Tie traucē entītiju detektēšanu veidā, ko ir grūti paredzēt.
Finanšu failos ir produktu kodi, entītiju virknes un kontu ID, kas dala virsmas modeļus ar personas ierakstiem.
Modeļa precizēšana uz nozares datiem palīdz. Bet tas prasa laiku un pūles, lai izveidotu un uzturētu.
Kā hibrīdā detektēšana to novērš
Viltus karodziņu problēmai ir skaidrs risinājums. Sadaliet darbu pēc datu tipa.
Modeļu noteikumi strukturētiem datiem. Sociālās apdrošināšanas numuri, tālruņu numuri, e-pasta adreses un ID formāti atbilst fiksētiem noteikumiem. Virkne vai atbilst modelim un iztur kontrolcipara testu, vai ne. Nulle viltus karodziņu derīgu noteikumu kopās.
Valodas modeļi brīvam tekstam. Vārdi, uzvārdi, uzņēmumu etiķetes un atrašanās vietas prozā nav stingras struktūras. NLP tos atrod, kad noteikumi nevar. Ticamības rādītāji un konteksta pārbaudes samazina viltus karodziņu rādītāju.
Tipa rādītāju iestatījumi precīzai kontrolei. Juridiskās komandas, kas nevar riskēt ar pārmērīgu redakciju, iestata augstus sliekšņus neskaidriem sakritībām. Pētniecības komandas, kurām nepieciešama augsta atsaukšana, iestata zemākus. Skat. Binārā PII detektēšana un ticamības rādītāji atbilstībai par to, kā rādītāju līmeņi darbojas praksē.
Rezultāts ir daudz mazāk kļūdu nekā Presidio noklusēšanas iestatījumos. Atsaukšana joprojām ir spēcīga tur, kur noteikumi vieni paši palaist pārāk daudz.
Juridiskajām un veselības komandām galvenais jautājums nav tas, vai viltus karodziņi pastāv. Tie vienmēr pastāv NLP sistēmās. Jautājums ir par to, vai rīks ļauj iestatīt, mērīt un dokumentēt kompromisu.