Tilbake til BloggTeknisk

Den Usynlige Overholdelsesskatten: Hvorfor Problemet...

Presidio GitHub-issue #1071 dokumenterer systematiske falske positiver. En studie fra 2024 fant 22,7% presisjon i blandede språkdatasett for bedrifter.

April 3, 20268 min lesing
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Den Usynlige Overholdelsesskatten

PII-detekteringsverktøy vurderes vanligvis etter tilbakekalling — hvilken prosentandel av faktisk PII fanget verktøyet? Men presisjon — hvilken prosentandel av verktøyets deteksjoner er faktisk PII — bestemmer de operative kostnadene ved å bruke verktøyet.

Et system med 95% tilbakekalling og 22,7% presisjon fanger 95% av ekte PII, men for hver ekte PII-enhet som oppdages, flagger det 3,4 falske positiver. I et datasett som inneholder 10 000 ekte PII-enheter, genererer dette systemet 10 000 / 0,227 ≈ 44 000 totale deteksjoner, hvorav 34 000 er falske positiver som krever manuell gjennomgang eller forårsaker over-redigering.

Dette er "den falske positive skatten": den operative overheaden pålagt enhver organisasjon som prøver å bruke et PII-detekteringssystem med høy tilbakekalling og lav presisjon i produksjonsskala. Den falske positive skatten har direkte kostnader — tid brukt av manuelle gjennomgåere — og indirekte kostnader: over-redigerte dokumenter skjuler relevant informasjon, senker arbeidsflyter og reduserer tilliten til det automatiserte systemet.

Hva Presidio Issue #1071 Dokumenterer

Microsoft Presidio GitHub-diskusjon #1071 (2024) dokumenterer et spesifikt og systematisk mønster av falske positiver. TFN (Skattenummer) og PCI-gjenkjennere med sjekksumvalidering produserer tillitsverdier på 1,0 — maksimal tillit — for ikke-PII-numre som tilfeldigvis passerer sjekksumalgoritmen.

Designproblemet: kontekstsjekk av ord (verifisering av at ord som "skattenummer" eller "TFN" vises nær den oppdagede enheten) anvendes etter sjekksumsteget i stedet for før. Numre som passerer sjekksummen får en poengsum på 1,0 uavhengig av konteksten. I dokumenter som inneholder numeriske data — finansielle regneark, vitenskapelige datasett, loggfiler — produserer dette en flom av falske positiver som ikke kan filtreres bare ved poenggrense.

Et eget mønster fra Presidio-samfunnet (GitHub-issue #999): Tysk ordsegmentering skaper falske positiver for navn- og stedsenheter. Tyske sammensetninger som "Bundesbehörde" (føderal myndighet) eller vanlige tyske termer kan bli feilsegmentert og oppdaget som personnavn.

Problemet med 22,7% Presisjon

Alvaro et al. (2024) evaluerte Presidio standardinnstillinger på blandede språkdatasett for bedrifter og fant 22,7% presisjon — noe som betyr at i ekte bedriftsdokumenter, tilsvarer færre enn 1 av 4 Presidio-detekteringer faktisk PII. Dette tallet er i samsvar med praktikeres feltopplevelser: Presidio justert for tilbakekalling produserer ubrukelig støy i produksjon.

En studie fra 2024 som undersøkte DICOM medisinsk bildebehandlingsmetadata fant at selv med score_threshold=0.7, 38 av 39 DICOM-bilder fortsatt hadde falske positive enheter. Grensen som eliminerer falske positiver for én dokumenttype skaper falske negative for en annen.

Presisjonsproblemet er ikke unikt for Presidio — det gjenspeiler den iboende vanskeligheten med å bygge en PII-detektor med høy tilbakekalling som også oppnår høy presisjon på tvers av forskjellige dokumenttyper, språk og dataformater. Utfordringen er at enhver fast grense representerer en avveining: høy grense reduserer falske positiver, men øker falske negative; lav grense øker tilbakekalling, men blåser opp falske positiver.

Den Kontekstbevisste Løsningen

Alternativet til grensejustering er kontekstbevisst tillitsvurdering. I stedet for å tildele tillit basert utelukkende på mønsteret av enheten, øker kontekstbevisst vurdering tilliten når kontekstord vises nær møtet og undertrykker falske positiver når konteksten er fraværende.

For TFN-detektering: en poengsum økes når "skattenummer," "TFN," eller "australsk skatt" vises innenfor et konfigurerbart vindu. Et nummer som passerer TFN-sjekksummen uten nærliggende kontekstord får en redusert tillitsverdi som faller under gjennomgangsgrensen.

For tverrspråklige falske positiver: enhetstyper som er spesifikke for visse språk (tysk skatte-ID, fransk NIR, australsk TFN) kan avgrenses til dokumenter oppdaget som det språket. En TFN-detektor anvendt kun på engelske og australsk-engelske dokumenter eliminerer de systematiske falske positive som oppstår når den samme detektoren kjører på tyske dokumenter.

Det tredje nivået av hybriddeteksjon — transformer-baserte kontekstuelle modeller — legger til et annet lag: modellen vurderer hele den omkringliggende konteksten for å skille et ekte personnavn ("John Smith, Pasient-ID 12345") fra en falsk positiv (en produktidentifikator som tilfeldigvis matcher et navnsmønster).

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.