Ranga jákvæðis-skatturinn á PII-greiningartækjum
Uppfært fyrir 2026
Flest PII-tæki eru dæmd á endurheimtu. Endurheimta mælir hvaða hlutfall raunverulegs PII tækið finnur. En nákvæmni skiptir jafnmiklu máli. Nákvæmni mælir hvaða hlutfall af viðvörunum tækisins eru raunverulegt PII.
Lág nákvæmni er dýr. Kerfi með 95% endurheimtu og 22,7% nákvæmni fangar mest allt PII. En fyrir hverja raunverulega PII-einingu sem það merkir, veldur það líka 3,4 röngum viðvörunum. Í gagnasetti með 10.000 raunverulegum PII-einingum sendir þetta kerfi u.þ.b. 44.000 viðvaranir. Um 34.000 þeirra eru rangar. Sérhvert kostar tíma til skoðunar eða veldur yfir-afmáningu.
Þetta er ranga jákvæðis-skatturinn. Það er kostnaðurinn sem sérhvert lið greiðir þegar keyrð er hátta-minna, lág-nákvæmni PII-kerfi í stórum hluta. Bein kostnaðurinn er endurskoðandatími. Óbein kostnaðurinn er verri: yfir-afmáð skjöl fela gagnlegar upplýsingar, hægja á vinnu og grípa traust til tækisins.
Hvað Presidio-mál #1071 sýnir
Microsoft Presidio GitHub-umræða #1071 (2024) skráir ákveðið mynstur. TFN (Tax File Number) og PCI-viðurkennarar nota prófsamtölustaðfestingu. Tölur sem standast prófsamtöluna fá skor 1.0 -- hámarkstraust. Engin PII-samhengi er krafist.
Rótarástæðan: samhengisorðatryggjar keyra eftir prófsamtölustigið, ekki áður. Tala sem stenst prófsamtöluna fær hæsta skor óháð umhverfistexta. Í fjárhagslegar töflureiknir, vísindagagnasett eða skráningarskrár flæðir þetta niðurrönd af röngum viðvörunum. Skorþröskuldssíun getur ekki lagað það. Skorin eru þegar á hámarki.
Annað mynstur kemur fram í Presidio-máli #999. Þýsk orðskiptingargreining bilar fyrir samsett nafnorð. Orð eins og Bundesbehörde (alríkisstofnun) geta skipt rangt og verið merkt sem eiginnöfn. Þetta bætir hljóm í öllum þýskum skjölum.
22,7% nákvæmnivandinn
Alvaro o.fl. (2024) prófuðu Presidio á blönduðum tungumála-fyrirtækjagagnasettum. Þeir fundu 22,7% nákvæmni. Í raunverulegum skjölum er færri en ein af fjórum Presidio-viðvörunum raunveruleg PII-eining. Þetta passar við það sem sérfræðingar skýra frá. Tæki fínstillt einungis á endurheimtu framleiðir of mikið hávaða til framleiðslunotkunar.
DICOM-rannsókn frá 2024 sýndi að hækkun score_threshold í 0.7 skildi eftir rangar viðvaranir í 38 af 39 lækningamyndum. Þröskuldur sem hreinsar hávaða í einum skjalsgerð veldur mistum í annarri.
Þetta er ekki Presidio-einu-saman-vandamál. Sérhver fastur þröskuldur þvingar skipti. Hár þröskuldur skerðir hávaða en hækkar missir. Lágur þröskuldur hækkar endurheimtu en þrúgar viðvörunarfjölda.
Samhengismeðvæt skor
Lausnin er samhengismeðvætt traustmat. Í stað þess að gefa skor byggt á mynsturbrot einum, eykur kerfið traust þegar samhengissamhengissamhengissamhengis-orð birtast nær samsvöruninni. Það lækkar líka skor þegar samhengi vantar.
Fyrir TFN-greiningu: orð eins og "tax file number", "TFN" eða "Australian tax" nær tölu auka skor hennar. Tala sem stenst prófsamtöluna en hefur engin nálæg samhengissamhengis-orð fær skor undir endurskoðunarþröskuldi. Rönga viðvörunin er bæld.
Fyrir krosslingvískan hávaða: einingategundir bundnar við ákveðin lönd er hægt að takmarka við skjöl á samsvarandi tungumáli. TFN-greinir takmarkaður við enskt og ástralenskt-enskt efni fjarlægir hávaða. Keyrsla hans á þýskt efni án takmarkana er uppspretta vandans.
Þriðja lagið í blönduðu kerfi er umbreytilíkan. Það les allt samhengisgluggann umhverfis hvern umsækjanda. Það greinir á milli "John Smith, Patient ID 12345" og vörukóða sem samsvarar nafnamynstri. Samhengi leysir óvisuna sem regex og prófsamtölur geta ekki.
Sjáðu hvernig þriggja-þrepa greiningarvélin sér um nákvæmni í stórum hluta. Leiðbeiningar um margtyngdar PII-greiningar útskýra hvernig krosslingvískt hávaði hefur áhrif á GDPR-samræmi.
Hagnýtar ráðgjafar
Áður en nokkurt PII-tæki er innleitt, skaltu mæla nákvæmni þess -- ekki bara endurheimtu.
Keyrðu tækið á skjalasett með þekktum PII og þekktum ekki-PII. Taldu viðvaranir í báðum hópum. Reiknaðu true_positives / (true_positives + false_positives). Þessi tala sýnir endurskoðunarskyldu áður en þú skuldbindur þig til kynningar.
Fyrir lið sem þegar nota Presidio er skordreifingagreining skjótur leið. Flytjið út sýnishorn af greiningum með traustmat. Talið hversu margt fá skor undir 0.6, 0.7 og 0.8. Stór hluti af há-skor-viðvörunum í hreinum texta gefur til kynna samhengisbil, ekki þröskuldsvandamál. Öryggissamræmisyfirlit útskýrir hvernig á að skrá þetta í DPIA.
Heimildir
- Microsoft Presidio GitHub-umræða #1071: kerfisbundnar rangar jákvæðar.
- Microsoft Presidio GitHub-mál #999: Þýskar tungumálalegar rangar jákvæðarmyndir.
- Alvaro o.fl. (2024): Presidio-nákvæmni á blönduðum tungumála-fyrirtækjagagnasettum.
- DICOM-skorþröskuldurgreining -- Microsoft Presidio-samfélag.