Davek laznih pozitivov pri orodjih za zaznavanje PII
Posodobljeno za leto 2026
Vecina orodij za PII se ocenjuje po priklicu. Priklic meri, kaksno delezprave PII orodje najde. Toda natancnost je enako pomembna. Natancnost meri, kaksno delezopozoril orodja je prava PII.
Nizka natancnost je draga. Sistem z 95-odstotnim priklicem in 22,7-odstotno natancnostjo ujame vecino PII. Toda za vsako pravo entiteto PII, ki jo oznaci, prozii se 3,4 napacnih opozoril. V naboru podatkov z 10.000 pravimi entitetami PII ta sistem sprozii priblizno 44.000 opozoril. Od tega je priblizno 34.000 napacnih. Vsako stane cas za pregled ali povzroci preveliko redakcijo.
To je davek laznih pozitivov. To je rezijski strosek, ki ga placa vsaka ekipa pri zagonu sistema PII z visokim priklicem in nizko natancnostjo v vecjem obsegu. Neposredni strosek je cas pregledovalca. Posredni strosek je hujsi: pretirano zaredaktirani dokumenti skrivajo koristne podatke, upocasnijo delo in spodkopavajo zaupanje v orodje.
Kaj pokaze Presidio Issue #1071
Razprava Microsoft Presidio na GitHubu, stevilka 1071 (2024), belexi specificen vzorec. Prepoznavalci TFN (stevilka davcne datoteke) in PCI uporabljajo preverjanje kontrolne vsote. Stevilke, ki uspesno prestanejo preverjanje, dobijo oceno 1,0 -- najvecje zaupanje. Ne zahteva se nobenega konteksta PII.
Korenski vzrok: preverjanje kontekstnih besed tece po koraku kontrolne vsote, ne pred njim. Stevilka, ki uspesno prestane preverjanje, dobi visoko oceno ne glede na okolisc besedilo. V financnih preglednicah, znanstvenih naborih podatkov ali dnevniskih datotekah to preplavi izhod z napacnimi opozorili. Filtriranje po meji ocene tega ne more popraviti. Ocene so ze na maksimumu.
Drugi vzorec se pojavi v Presidio issue #999. Segmentacija nemskih besed odpove pri zlozenjih. Besede, kot je Bundesbehorde (zvezna oblast), se lahko napacno razdelijo in oznacijo kot osebna imena. To doda sum v kateri koli dokument v nemscini.
Tezava z 22,7-odstotno natancnostjo
Alvaro et al. (2024) so testirali Presidio na podjetniskih naborih podatkov z mesanimi jeziki. Ugotovili so 22,7-odstotno natancnost. V resnicnih dokumentih je manj kot eno od stirih opozoril Presidia prava entiteta PII. To se ujema s tem, kar porocajo prakticanti. Orodje, nastrojeno samo za priklic, ustvarja prevec suma za produkcijsko rabo.
Studija DICOM iz leta 2024 je pokazala, da dviganje score_threshold na 0,7 se vedno pusca napacna opozorila v 38 od 39 mediciniskih slik. Meja, ki ocisti sum v eni vrsti dokumentov, ustvarja zamujene zaznave v drugi.
To ni tezava samo Presidia. Vsaka fiksna meja sili kompromis. Visoka meja zmanjsa sum, a dvigne zamude. Nizka meja poveca priklic, a napihne stevilo opozoril.
Ocenjevanje, ki uposteva kontekst
Resitev je ocenjevanje zaupanja, ki uposteva kontekst. Namesto ocenjevanja zgolj na podlagi ujemanja vzorca sistem povisi zaupanje, ko se kontekstne besede pojavijo blizu ujemanja. Prav tako znizi oceno, ko kontekst manjka.
Za zaznavanje TFN: besede, kot so "stevilka davcne datoteke", "TFN" ali "australska davcna" blizu stevilke, poviso njeno oceno. Stevilka, ki uspesno prestane preverjanje kontrolne vsote, a nima nobenih bliznji kontekstnih besed, dobi oceno pod mejo pregleda. Lazno opozorilo je zatrto.
Za medjezikovni sum: vrste entitet, vezane na specificne drzave, se lahko omejijo na dokumente v ustreznem jeziku. Prepoznavalec TFN, omejen na anglesco in avstralsko anglescino, odpravlja sum. Poganjanje na nemski vsebini brez omejitve je vir tezave.
Tretja plast v hibridnem sistemu je transformatorski model. Prebere polno okno konteksta okoli vsakega kandidata. Razlikuje med "John Smith, ID pacienta 12345" in kodo izdelka, ki se ujema z vzorcem imena. Kontekst razresi dvoumnost, ki je regex in kontrolne vsote ne morejo.
Poglejte, kako triplacni pogon za zaznavanje obravnava natancnost v vecjem obsegu. Vodnik za vecjezicno zaznavanje PII pojasnjuje, kako medjezikovni sum vpliva na skladnost z GDPR.
Prakticni koraki
Preden uvedete katero koli orodje za PII, izmerite njegovo natancnost -- ne le priklic.
Pozzenite orodje na naboru dokumentov z znano PII in znano ne-PII. Prestejte opozorila v obeh skupinah. Izracunajte true_positives / (true_positives + false_positives). Ta stevilka razkrije breme pregleda, preden se zavezete k uvedbi.
Za ekipe, ki ze uporabljajo Presidio, je analiza porazdelitve ocen hitra pot. Izvozite vzorec zaznav z njihovimi ocenami zaupanja. Prestejte, koliko jih dobi oceno pod 0,6, 0,7 in 0,8. Velik deles opozoril z visoko oceno v cistem besedilu opozarja na vrzel v kontekstu, ne na tezavo z mejo. Pregled varnosti in skladnosti pojasnjuje, kako to dokumentirati v OCVP.
Viri
- Razprava Microsoft Presidio GitHub #1071: sistemski lazni pozitivi.
- Microsoft Presidio GitHub Issue #999: vzorci laznih pozitivov v nemscini.
- Alvaro et al. (2024): Natancnost Presidia na podjetniskih naborih podatkov z mesanimi jeziki.
- Analiza meje ocene DICOM -- skupnost Microsoft Presidio.