Die Vals Positiewe Belasting op PII-Opsporingsgereedskap

Bygewerk vir 2026

Die meeste PII-gereedskap word aan herroep beoordeel. Herroep meet watter deel van werklike PII die gereedskap vind. Maar presisie is net so belangrik. Presisie meet watter deel van die gereedskap se waarskuwings werklike PII is.

Lae presisie is duur. 'n Stelsel met 95% herroep en 22.7% presisie vang die meeste PII. Tog vir elke werklike PII-entiteit wat dit merk, gee dit ook 3.4 verkeerde waarskuwings. In 'n datastel met 10,000 werklike PII-entiteite gee hierdie stelsel ongeveer 44,000 waarskuwings. Omtrent 34,000 van hulle is verkeerd. Elkeen kos tyd om te hersien of veroorsaak oor-redigering.

Dit is die vals positiewe belasting. Dit is die oorhoofse koste wat enige span betaal wanneer hulle 'n hoe-herroep, lae-presisie PII-stelsel op groot skaal gebruik. Die direkte koste is hersienertyd. Die indirekte koste is erger: oor-geredigeerde dokumente verberg nuttige data, vertraag werk, en ondermyn vertroue in die gereedskap.

Wat Presidio Kwessie #1071 Wys

Microsoft Presidio GitHub-bespreking #1071 (2024) teken 'n spesifieke patroon aan. Die TFN (Belasting-leer-nommer) en PCI-herkenners gebruik kontrolesom-validering. Nommers wat die kontrolesom slaag ontvang 'n telling van 1.0 -- maksimum vertroue. Geen PII-konteks word vereis nie.

Die grondoorsaak: kontekswoord-kontrole loop na die kontrolesom-stap, nie voor nie. 'n Nommer wat die kontrolesom slaag kry 'n toptelling ongeag omringende teks. In finansiele sigblaaie, wetenskaplike datastelle, of logLeers, oorstroom dit die uitvoer met verkeerde waarskuwings. Tellingsdrempel-filtrering kan dit nie regmaak nie. Die tellings is reeds op maksimum.

'n Tweede patroon verskyn in Presidio-kwessie #999. Duitse woordsegmentering breek vir samegestelde naamwoorde. Woorde soos Bundesbehorde (federale gesag) kan verkeerd gesplit word en as persoonlike name gemerk word. Dit voeg geraas by in enige Duitstalige dokument.

Die 22.7% Presisieprobleem

Alvaro et al. (2024) het Presidio op gemengde-taal ondernemingsdatastelle getoets. Hulle het 22.7% presisie gevind. In werklike dokumente is minder as een uit vier Presidio-waarskuwings 'n werklike PII-entiteit. Dit stem ooreen met wat praktisyns rapporteer. 'n Gereedskap wat vir herroep alleen gestem is, produseer te veel geraas vir produksiegebruik.

'n 2024 DICOM-studie het gewys dat die verheffing van score_threshold na 0.7 steeds verkeerde waarskuwings in 38 van 39 mediese beelde gelaat het. 'n Drempel wat geraas in een dokumenttipe verwyder skep gemiste opsporing in 'n ander.

Dit is nie net 'n Presidio-probleem nie. Enige vaste drempel dwing 'n kompromis. 'n Hoe drempel sny geraas maar verhoog missies. 'n Lae drempel verhoog herroep maar blaas die waarskuwingstelling op.

Konteks-bewuste Telling

Die oplossing is konteks-bewuste vertroue-telling. In plaas van telling wat slegs op die patroonpassing gebaseer is, verhoog die stelsel vertroue wanneer kontekswoorde naby die passing verskyn. Dit verlaag ook die telling wanneer konteks afwesig is.

Vir TFN-opsporing: woorde soos "belasting-leer-nommer," "TFN," of "Australiese belasting" naby 'n nommer verhoog sy telling. 'n Nommer wat die kontrolesom slaag maar geen nabygeleë kontekswoorde het nie, tellings onderkant die hersiendrempel. Die vals waarskuwing word onderdruk.

Vir kruistalige geraas: entiteitstipes wat aan spesifieke lande gekoppel is, kan tot dokumente in die ooreenstemmende taal beperk word. 'n TFN-herkenner wat tot Engels en Australies-Engelse teks beperk is, verwyder geraas. Dit op Duitse inhoud sonder beperking te gebruik is die bron van die probleem.

Die derde laag in 'n hibridiese stelsel is 'n transformatormodel. Dit lees die volledige konteksvenster rondom elke kandidaat. Dit onderskei "Jan Smit, Pasient-ID 12345" van 'n produkskode wat 'n naampatroon pas. Konteks los die dubbelsinnigheid op wat regex en kontrolesomme nie kan nie.

Sien hoe die drielaag-opsporingenjin presisie op groot skaal hanteer. Die veeltalige PII-opsporinggids dek hoe kruistalige geraas GDPR-nakoming beinvloed.

Praktiese Stappe

Voor die ontplooiing van enige PII-gereedskap, meet sy presisie -- nie net herroep nie.

Laat die gereedskap op 'n dokumentstel met bekende PII en bekende nie-PII loop. Tel waarskuwings in beide groepe. Bereken true_positives / (true_positives + false_positives). Hierdie getal onthul die hersienlas voor jy tot 'n uitrol verbind.

Vir spanne wat reeds Presidio gebruik, is tellingverspreiding-analise 'n vinnige pad. Voer 'n steekproef van opsporing met hul vertroue-tellings uit. Tel hoeveel onder 0.6, 0.7, en 0.8 tellings het. 'n Groot deel van hoe-telling waarskuwings in skoon teks dui op 'n konteksgaping, nie 'n drempelprobleem nie. Die sekuriteitsnakomingsoorsig verduidelik hoe om dit in 'n DPIA te dokumenteer.

Bronne

Microsoft Presidio GitHub Bespreking #1071: Stelselmatige vals positiewes.
Microsoft Presidio GitHub Kwessie #999: Duitse taal vals positiewe patrone.
Alvaro et al. (2024): Presidio-presisie op gemengde-taal ondernemingsdatastelle.
DICOM telling-drempel analise -- Microsoft Presidio gemeenskap.

Verwante Artikels

Tegnies

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

Begin Gratis Proeflopie Besoek Kenmerke

Die Vals Positiewe Belasting op PII-gereedskap

Die Vals Positiewe Belasting op PII-Opsporingsgereedskap

Wat Presidio Kwessie #1071 Wys

Die 22.7% Presisieprobleem

Konteks-bewuste Telling

Praktiese Stappe

Bronne

Verwante Artikels

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gereed om u data te beskerm?

Die Vals Positiewe Belasting op PII-gereedskap

Die Vals Positiewe Belasting op PII-Opsporingsgereedskap

Wat Presidio Kwessie #1071 Wys

Die 22.7% Presisieprobleem

Konteks-bewuste Telling

Praktiese Stappe

Bronne

Verwante Artikels

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gereed om u data te beskerm?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow