AAS Aptikimo Priemoniu Klaidingo Teigiamo Mokestis
Atnaujinta 2026 m.
Dauguma AAS priemoniu vertinamos pagal atpazistamuma. Atpazistamumas matuoja, kiek tikro AAS priemone randa. Taciau tikslumas svarbus lygiai taip pat. Tikslumas matuoja, kiek priemones ispejdimu yra tikras AAS.
Mazas tikslumas brangiai kainuoja. Sistema su 95% atpazistamumu ir 22,7% tikslumu pagauna dauguma AAS. Taciau uz kiekviena tikra AAS esybe, kuria ji pazymi, ji taip pat kelia 3,4 klaidingus perspejimus. Duomenu rinkinyje su 10 000 tikru AAS esybiu ta sistema paleidzia mazdaug 44 000 perspejdimu. Apie 34 000 ju yra neteisingi. Kiekvienas kainuoja perzurejimo laika arba sukelia per dideli redagavima.
Tai yra klaidingo teigiamo mokestis. Tai yra papildomos isnaudos, kurias bet kuri komanda moka, kai paleidzia auksto atpazistamumum, mazos tikslumo AAS sistema didesniu mastu. Tiesiogine kaina yra perzuretojo laikas. Netiesiogineis kaina yra blogesneis: per daug redaguoti dokumentai slep naudingus duomenis, letina darba ir erodo pasitikejima priemone.
Ka Presidio Problema #1071 Rodo
Microsoft Presidio GitHub diskusija #1071 (2024 m.) dokumentuoja konkretu sablona. TFN (Australijos Mokesciu Bylos Numerio) ir PCI atpazintuvas naudoja kontrolines sumos validacija. Numeriai, praejantys kontroline suma, gauna 1,0 balo - maksimalaus pasitikejimo. Joks AAS kontekstas nereikalingas.
Saknes priezastis: konteksto zodziu tikrinimas vykdomas po kontrolines sumos zingsnio, ne pries ji. Numeris, praejantis kontroline suma, gauna auksciausia bala nepriklausomai nuo aplinkinio teksto. Finansiniuose skaiciuoklese, mokslinese duomenu rinkiniuose ar zurnaluose, tai uztvindu isvesties klaidingais perspejimais. Balo slenkscio filtravimas to negali istaisyti. Balai jau yra maksimalus.
Antras sablanas pasirodo Presidio problemoje #999. Vokisku zodziu segmentavimas subyra sudurtiniams daiktavardeiams. Tokie zodziai kaip Bundesbehorde (federaline institucija) gali buti neteisingai padalinti ir pazymeti kaip asmenines vardes. Tai prideda triuksminga bet kuriame vokisku kalba dokumente.
22,7% Tikslumo Problema
Alvaro ir kiti (2024 m.) isme Presidio misriu kalbu imones duomenu rinkiniuose. Jie nustate 22,7% tiksluma. Tikruose dokumentuose maziau nei vienas is keturiu Presidio perspejdimu yra tikra AAS esybe. Tai atitinka tai, ka pranesa praktikai. Priemone, derinamas tik pagal atpazistamuma, gamina per daug triuksmo gamybos naudojimui.
2024 m. DICOM tyrimas parode, kad keliant score_threshold iki 0,7 vis tiek liko klaidingos perspejdimai 38 is 39 medicininiu atvaizdu. Slenkstis, valantis triuksma viename dokumento tipe, sukuria praleidimu kitame.
Tai nera tik Presidio problema. Bet koks fiksuotas slenkstis vercia pasirinkti. Auktas slenkstis mazina triuksma, bet kelia pralelimus. Zemas slenkstis kelia atpazistamuma, bet sufliuoja perspejdimu skaiciumi.
Nuo Konteksto Priklausantis Balo Skaiciavimas
Sprendimas yra nuo konteksto priklausantis pasitikejimo balo skaiciavimas. Vietoj to, kad balo pagristumas bitu tik sablonas, sistema padidina pasitikejima, kai konteksto zodziai pasirodo salia atitikmens. Ji taip pat mazone bala, kai kontekstas nera.
Del TFN aptikimo: zodziai kaip "mokesciu bylos numeris", "TFN" arba "Australijos mokesciai" salia numerio padidina jo bala. Numeris, praejantis kontroline suma, bet neturintis artimojo konteksto zodziu, gauna bala ziau perzurejimo slenksciu. Netikrasis perspejimas yra suslegnamas.
Del kryzmines kalbos triuksmo: esybiu tipai, susijus su konkretiomis salimis, gali buti apriboti atitinkancios kalbos dokumentams. TFN detektorius, apribotas anglu ir Australijos-anglu tekstu, pasalina triuksma. Paleidimas su vokisku turiniu be apribojimo yra problemos saltinis.
Trecias sluoksnis hibridinese sistemose yra transformeriu modelis. Jis skaito visa konteksto langa aplink kiekviena kandidata. Jis skiria "Jona Smita, Paciento ID 12345" nuo produkto kodo, atitinkancio vardo sablona. Kontekstas issprend ia dviprasmybe, kurios regex ir kontrolines sumos negali.
Ziurekite, kaip trijuu pakopiu aptikimo variklis tvarko tiksluma didesniu mastu. Daugiakalbio AAS aptikimo vadovas apraso, kaip kryzmines kalbos triuksmas veikia BDAR atitikima.
Praktiniai Zingsniai
Pries diegiant bet kuria AAS priemone, imatuokite jo tiksluma - ne tik atpazistamuma.
Paleiskite priemone su dokumentu rinkiniu su zinomais AAS ir zinomais ne-AAS. Suskaiciuokite perspejimus abiejose grupese. Apskaiciuokite true_positives / (true_positives + false_positives). Sis skaicius atskleidzia perzurejimo nasta pries isipareigojima diegimui.
Komandoms, jau naudojancioms Presidio, balo distribucijos analize yra greitas kelias. Eksportuokite aptikimu imti su ju pasitikejimo balais. Suskaiciuokite, kiek skaiciu gauna balu ziau 0,6, 0,7 ir 0,8. Didele dalis auksto balu perspejdimu varin tekste signalizuoja konteksto spraga, o ne slenksciu problema. Saugumo atitikties apzvalga paaiksina, kaip tai dokumentuoti DPIA.
Saltiniai
- Microsoft Presidio GitHub Diskusija #1071: sistemingi klaidingi teigiamieji.
- Microsoft Presidio GitHub Problema #999: vokisku kalbos klaidingo teigiamo sablonai.
- Alvaro ir kiti (2024 m.): Presidio tikslumas misriu kalbu imones duomenu rinkiniuose.
- DICOM balo slenksciu analize - Microsoft Presidio bendrija.