Die Vals Positiewe Belasting op PII-Opsporingsgereedskap
Bygewerk vir 2026
Die meeste PII-gereedskap word aan herroep beoordeel. Herroep meet watter deel van werklike PII die gereedskap vind. Maar presisie is net so belangrik. Presisie meet watter deel van die gereedskap se waarskuwings werklike PII is.
Lae presisie is duur. 'n Stelsel met 95% herroep en 22.7% presisie vang die meeste PII. Tog vir elke werklike PII-entiteit wat dit merk, gee dit ook 3.4 verkeerde waarskuwings. In 'n datastel met 10,000 werklike PII-entiteite gee hierdie stelsel ongeveer 44,000 waarskuwings. Omtrent 34,000 van hulle is verkeerd. Elkeen kos tyd om te hersien of veroorsaak oor-redigering.
Dit is die vals positiewe belasting. Dit is die oorhoofse koste wat enige span betaal wanneer hulle 'n hoe-herroep, lae-presisie PII-stelsel op groot skaal gebruik. Die direkte koste is hersienertyd. Die indirekte koste is erger: oor-geredigeerde dokumente verberg nuttige data, vertraag werk, en ondermyn vertroue in die gereedskap.
Wat Presidio Kwessie #1071 Wys
Microsoft Presidio GitHub-bespreking #1071 (2024) teken 'n spesifieke patroon aan. Die TFN (Belasting-leer-nommer) en PCI-herkenners gebruik kontrolesom-validering. Nommers wat die kontrolesom slaag ontvang 'n telling van 1.0 -- maksimum vertroue. Geen PII-konteks word vereis nie.
Die grondoorsaak: kontekswoord-kontrole loop na die kontrolesom-stap, nie voor nie. 'n Nommer wat die kontrolesom slaag kry 'n toptelling ongeag omringende teks. In finansiele sigblaaie, wetenskaplike datastelle, of logLeers, oorstroom dit die uitvoer met verkeerde waarskuwings. Tellingsdrempel-filtrering kan dit nie regmaak nie. Die tellings is reeds op maksimum.
'n Tweede patroon verskyn in Presidio-kwessie #999. Duitse woordsegmentering breek vir samegestelde naamwoorde. Woorde soos Bundesbehorde (federale gesag) kan verkeerd gesplit word en as persoonlike name gemerk word. Dit voeg geraas by in enige Duitstalige dokument.
Die 22.7% Presisieprobleem
Alvaro et al. (2024) het Presidio op gemengde-taal ondernemingsdatastelle getoets. Hulle het 22.7% presisie gevind. In werklike dokumente is minder as een uit vier Presidio-waarskuwings 'n werklike PII-entiteit. Dit stem ooreen met wat praktisyns rapporteer. 'n Gereedskap wat vir herroep alleen gestem is, produseer te veel geraas vir produksiegebruik.
'n 2024 DICOM-studie het gewys dat die verheffing van score_threshold na 0.7 steeds verkeerde waarskuwings in 38 van 39 mediese beelde gelaat het. 'n Drempel wat geraas in een dokumenttipe verwyder skep gemiste opsporing in 'n ander.
Dit is nie net 'n Presidio-probleem nie. Enige vaste drempel dwing 'n kompromis. 'n Hoe drempel sny geraas maar verhoog missies. 'n Lae drempel verhoog herroep maar blaas die waarskuwingstelling op.
Konteks-bewuste Telling
Die oplossing is konteks-bewuste vertroue-telling. In plaas van telling wat slegs op die patroonpassing gebaseer is, verhoog die stelsel vertroue wanneer kontekswoorde naby die passing verskyn. Dit verlaag ook die telling wanneer konteks afwesig is.
Vir TFN-opsporing: woorde soos "belasting-leer-nommer," "TFN," of "Australiese belasting" naby 'n nommer verhoog sy telling. 'n Nommer wat die kontrolesom slaag maar geen nabygeleë kontekswoorde het nie, tellings onderkant die hersiendrempel. Die vals waarskuwing word onderdruk.
Vir kruistalige geraas: entiteitstipes wat aan spesifieke lande gekoppel is, kan tot dokumente in die ooreenstemmende taal beperk word. 'n TFN-herkenner wat tot Engels en Australies-Engelse teks beperk is, verwyder geraas. Dit op Duitse inhoud sonder beperking te gebruik is die bron van die probleem.
Die derde laag in 'n hibridiese stelsel is 'n transformatormodel. Dit lees die volledige konteksvenster rondom elke kandidaat. Dit onderskei "Jan Smit, Pasient-ID 12345" van 'n produkskode wat 'n naampatroon pas. Konteks los die dubbelsinnigheid op wat regex en kontrolesomme nie kan nie.
Sien hoe die drielaag-opsporingenjin presisie op groot skaal hanteer. Die veeltalige PII-opsporinggids dek hoe kruistalige geraas GDPR-nakoming beinvloed.
Praktiese Stappe
Voor die ontplooiing van enige PII-gereedskap, meet sy presisie -- nie net herroep nie.
Laat die gereedskap op 'n dokumentstel met bekende PII en bekende nie-PII loop. Tel waarskuwings in beide groepe. Bereken true_positives / (true_positives + false_positives). Hierdie getal onthul die hersienlas voor jy tot 'n uitrol verbind.
Vir spanne wat reeds Presidio gebruik, is tellingverspreiding-analise 'n vinnige pad. Voer 'n steekproef van opsporing met hul vertroue-tellings uit. Tel hoeveel onder 0.6, 0.7, en 0.8 tellings het. 'n Groot deel van hoe-telling waarskuwings in skoon teks dui op 'n konteksgaping, nie 'n drempelprobleem nie. Die sekuriteitsnakomingsoorsig verduidelik hoe om dit in 'n DPIA te dokumenteer.
Bronne
- Microsoft Presidio GitHub Bespreking #1071: Stelselmatige vals positiewes.
- Microsoft Presidio GitHub Kwessie #999: Duitse taal vals positiewe patrone.
- Alvaro et al. (2024): Presidio-presisie op gemengde-taal ondernemingsdatastelle.
- DICOM telling-drempel analise -- Microsoft Presidio gemeenskap.