Den falske positivt-avgiften pa PII-deteksjonsverktoy
Oppdatert for 2026
De fleste PII-verktoy bedommer etter recall. Recall maler hvilken andel av reell PII verktoyef finner. Men presisjon er like viktig. Presisjon maler hvilken andel av verktoyets varsler er reell PII.
Lav presisjon er kostbart. Et system med 95 % recall og 22,7 % presisjon fanger det meste av PII. Likevel, for hver reell PII-enhet det flaggger, genererer det ogsa 3,4 feilaktige varsler. I et datasett med 10 000 reelle PII-enheter vil et slikt system avfyre omtrent 44 000 varsler. Omtrent 34 000 av dem er feil. Hvert enkelt koster tid a gjennomga eller forer til overredaksjon.
Dette er den falske positivt-avgiften. Det er den overheaden ethvert team betaler nar de kjorer et PII-system med hoyt recall og lav presisjon i stor skala. Den direkte kostnaden er gjennomgangstid. Den indirekte kostnaden er verre: overredakterte dokumenter skjuler nyttige data, bremser arbeidet og svekker tilliten til verktoyef.
Hva Presidio-sak nr. 1071 viser
Microsoft Presidio GitHub-diskusjon nr. 1071 (2024) dokumenterer et spesifikt monster. TFN- (Tax File Number) og PCI-gjenkjennerne bruker sjekksum-validering. Tall som bestaar sjekksummen far en score pa 1,0 - maksimal tillitt. Ingen PII-kontekst er nodvendig.
Rotkausen: kontekstord-sjekk kjores etter sjekksum-trinnet, ikke for. Et tall som bestaar sjekksummen far toppscore uavhengig av omgivende tekst. I finansielle regneark, vitenskapelige datasett eller loggfiler oversvommer dette resultatet med feilaktige varsler. Score-terskelfiltrering kan ikke fikse det. Scorene er allerede pa maksimum.
Et annet monster fremkommer i Presidio-sak nr. 999. Tysk ordsegmentering bryter sammen for sammensatte substantiver. Ord som Bundesbehorde (foderale myndigheter) kan deles feil og merkes som personnavn. Dette legger til stoy i ethvert tysk-spraklig dokument.
22,7 %-presjonsproblemet
Alvaro et al. (2024) testet Presidio pa blandede spraklige bedriftsdatasett. De fant 22,7 % presisjon. I reelle dokumenter er farre enn ett av fire Presidio-varsler en reell PII-enhet. Dette stemmer med hva praktikere rapporterer. Et verktoy finjustert bare for recall produserer for mye stoy for produksjonsbruk.
En DICOM-studie fra 2024 viste at heving av score_threshold til 0,7 fortsatt etterlot feilaktige varsler i 38 av 39 medisinske bilder. En terskel som fjerner stoy i en dokumenttype skaper oversette deteksjoner i en annen.
Dette er ikke et Presidio-spesifikt problem. Enhver fast terskel tvinger frem en avveining. En hoy terskel kutter stoy, men oker antall oversette tilfeller. En lav terskel oker recall, men blaser opp antall varsler.
Kontekstbevisst scoring
Losningen er kontekstbevisst konfidensscoring. I stedet for a score basert pa monstertrefff alene, oker systemet tilliten nar kontekstord vises naer treffet. Det senker ogsa scoren nar kontekst mangler.
For TFN-deteksjon: ord som "tax file number", "TFN" eller "Australian tax" naer et tall oker scoren. Et tall som bestaar sjekksummen men mangler naerliggende kontekstord, scorer under gjennomgangsterskelen. Det falske varselet undertrykkes.
For tverrspraklig stoy: enhetstyper knyttet til bestemte land kan begrenses til dokumenter pa det tilsvarende spraket. En TFN-detektor begrenset til engelsk og australsk-engelsk tekst fjerner stoy. A kjore den pa tysk innhold uten begrensning er kilden til problemet.
Det tredje laget i et hybridssystem er en transformer-modell. Den leser hele kontekstvinduet rundt hver kandidat. Den skiller mellom "John Smith, pasient-ID 12345" og en produktkode som matcher et navnemoster. Kontekst loser tvetydigheten som regex og sjekksummer ikke kan.
Se hvordan trelags-deteksjonsmoteren haandterer presisjon i stor skala. Guiden for flerspraklig PII-deteksjon dekker hvordan tverrspraklig stoy pavirker GDPR-samsvar.
Praktiske steg
For du ruller ut et PII-verktoy, mal presjonen - ikke bare recall.
Kjor verktoyef pa et dokumentsett med kjent PII og kjent ikke-PII. Tell varsler i begge grupper. Beregn true_positives / (true_positives + false_positives). Dette tallet avslorer gjennomgangsbelastningen for du forplikter deg til en utrulling.
For team som allerede bruker Presidio er score-distribusjonsanalyse en rask vei. Eksporter et utvalg av deteksjoner med tilherende konfidensscorer. Tell hvor mange som scorer under 0,6, 0,7 og 0,8. En stor andel hoy-score-varsler i ren tekst signaliserer et kontekstgap, ikke et terskelproblem. Sikkerhets-samsvarsoversynet forklarer hvordan du dokumenterer dette i en DPIA.
Kilder
- Microsoft Presidio GitHub-diskusjon nr. 1071: systematiske falske positiver.
- Microsoft Presidio GitHub-sak nr. 999: Tyske falske positivt-monster.
- Alvaro et al. (2024): Presidio-presisjon pa blandede spraklige bedriftsdatasett.
- DICOM-score-terskelanalyse - Microsoft Presidio-fellesskapet.