Tilbage til BlogTeknisk

Den Usynlige Overholdelsesafgift: Hvorfor Dit PII...

Presidio GitHub-issue #1071 dokumenterer systematiske falske positiver. En undersøgelse fra 2024 fandt 22,7% præcision i blandede sprog...

April 3, 20268 min læsning
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Den Usynlige Overholdelsesafgift

PII-detekteringsværktøjer evalueres typisk på recall — hvilken procentdel af den faktiske PII fangede værktøjet? Men præcision — hvilken procentdel af værktøjets detektioner er faktisk PII — bestemmer de operationelle omkostninger ved at bruge værktøjet.

Et system med 95% recall og 22,7% præcision fanger 95% af den reelle PII, men for hver reel PII-enhed, der detekteres, flagger det 3,4 falske positiver. I et datasæt, der indeholder 10.000 reelle PII-enheder, genererer dette system 10.000 / 0.227 ≈ 44.000 totale detektioner, hvoraf 34.000 er falske positiver, der kræver manuel gennemgang eller forårsager over-redigering.

Dette er "den falske positiv skat": den operationelle overhead, der pålægges enhver organisation, der forsøger at bruge et PII-detekteringssystem med høj recall og lav præcision i produktionsskala. Den falske positiv skat har direkte omkostninger — tid til manuel gennemgang — og indirekte omkostninger: over-redigerede dokumenter skjuler relevant information, bremser arbejdsgange og reducerer tilliden til det automatiserede system.

Hvad Dokumenterer Presidio Issue #1071

Microsoft Presidio GitHub-diskussion #1071 (2024) dokumenterer et specifikt og systematisk falsk positiv mønster. TFN (Tax File Number) og PCI-genkendere med checksum-validering producerer tillidsscorer på 1.0 — maksimal tillid — for ikke-PII-numre, der tilfældigvis passerer checksum-algoritmen.

Designproblemet: kontekstordkontrol (verificering af, at ord som "tax file number" eller "TFN" vises nær den detekterede enhed) anvendes efter checksum-trinnet i stedet for før. Numre, der passerer checksum, får en score på 1.0 uanset kontekst. I dokumenter, der indeholder numeriske data — finansielle regneark, videnskabelige datasæt, logfiler — producerer dette en oversvømmelse af falske positiver, der ikke kan filtreres kun ved hjælp af scoregrænse.

Et separat mønster fra Presidio-fællesskabet (GitHub-issue #999): Tysk ordsegmentering skaber falske positiver for navn- og lokalitetsenheder. Tyske sammensætninger som "Bundesbehörde" (federal myndighed) eller almindelige tyske termer kan blive forkert segmenteret og detekteret som personnavne.

Problemet med 22,7% Præcision

Alvaro et al. (2024) evaluerede Presidio standardindstillinger på blandede sprog virksomhedsdatasæt og fandt 22,7% præcision — hvilket betyder, at i reelle virksomhedsdokumenter svarer færre end 1 ud af 4 Presidio-detektioner til faktisk PII. Dette tal er i overensstemmelse med praktikeres erfaring fra felten: Presidio indstillet til recall producerer ubrugeligt støj i produktionen.

En undersøgelse fra 2024, der undersøgte DICOM medicinsk billedmetadata, fandt, at selv med score_threshold=0.7, 38 ud af 39 DICOM-billeder stadig havde falske positive enheder. Den tærskel, der eliminerer falske positiver for én dokumenttype, skaber falske negativer for en anden.

Præcisionsproblemet er ikke unikt for Presidio — det afspejler den iboende vanskelighed ved at bygge en PII-detektor med høj recall, der også opnår høj præcision på tværs af forskellige dokumenttyper, sprog og dataformater. Udfordringen er, at enhver fast tærskel repræsenterer en afvejning: høj tærskel reducerer falske positiver, men øger falske negativer; lav tærskel øger recall, men oppuster falske positiver.

Den Kontekstbevidste Løsning

Alternativet til tærskeljustering er kontekstbevidst tillidsscorering. I stedet for at tildele tillid baseret udelukkende på enhedsmønsteret, øger kontekstbevidst scoring tilliden, når kontekstord vises nær mødet og undertrykker falske positiver, når konteksten er fraværende.

For TFN-detektion: en score øges, når "tax file number," "TFN," eller "Australian tax" vises inden for et konfigurerbart vindue. Et nummer, der passerer TFN-checksum uden nærliggende kontekstord, modtager en reduceret tillidsscore, der falder under gennemgangstærsklen.

For tvær-sproglige falske positiver: enhedstyper, der er specifikke for bestemte sprog (tysk skat-ID, fransk NIR, australsk TFN) kan begrænses til dokumenter, der detekteres som det sprog. En TFN-detektor anvendt kun på engelske og australsk-engelske dokumenter eliminerer de systematiske falske positiver, der opstår, når den samme detektor kører på tyske dokumenter.

Det tredje niveau af hybriddetektion — transformer-baserede kontekstuelle modeller — tilføjer et andet lag: modellen evaluerer den fulde omgivende kontekst for at skelne mellem et ægte personnavn ("John Smith, Patient ID 12345") og en falsk positiv (en produktidentifikator, der tilfældigvis matcher et navn mønster).

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.