Den osynliga efterlevnadsskatten
PII-detekteringsverktyg utvärderas vanligtvis utifrån återkallande — vilken procentandel av den faktiska PII fångade verktyget? Men precision — vilken procentandel av verktygets detektioner är faktisk PII — avgör de operationella kostnaderna för att använda verktyget.
Ett system med 95% återkallande och 22,7% precision fångar 95% av verklig PII men för varje verklig PII-enhet som upptäckts flaggar det 3,4 falska positiva. I ett dataset som innehåller 10 000 verkliga PII-enheter genererar detta system 10 000 / 0,227 ≈ 44 000 totala detektioner, varav 34 000 är falska positiva som kräver manuell granskning eller orsakar överredigering.
Detta är "den falska positiva skatten": den operationella overhead som åläggs varje organisation som försöker använda ett högåterkallande, lågpåverkat PII-detekteringssystem i produktionsskala. Den falska positiva skatten har direkta kostnader — tid för manuell granskare — och indirekta kostnader: överredigerade dokument döljer relevant information, saktar ner arbetsflöden och minskar förtroendet för det automatiserade systemet.
Vad Presidio-ärende #1071 dokumenterar
Microsoft Presidio GitHub-diskussion #1071 (2024) dokumenterar ett specifikt och systematiskt mönster av falska positiva. TFN (Tax File Number) och PCI-igenkännare med checksumvalidering producerar förtroendesiffror på 1,0 — maximal förtroende — för icke-PII-nummer som råkar passera checksum-algoritmen.
Designproblemet: kontextordkontroll (verifiering av att ord som "tax file number" eller "TFN" förekommer nära den upptäckta enheten) tillämpas efter checksum-steget snarare än före. Nummer som passerar checksum får en poäng på 1,0 oavsett kontext. I dokument som innehåller numeriska data — finansiella kalkylblad, vetenskapliga dataset, loggfiler — producerar detta en översvämning av falska positiva som inte kan filtreras enbart med poängtröskel.
Ett separat mönster från Presidio-communityn (GitHub-ärende #999): Tysk ordsegmentering skapar falska positiva för namn- och platsenheter. Tyska sammansättningar som "Bundesbehörde" (federal myndighet) eller vanliga tyska termer kan felaktigt segmenteras och upptäckas som personnamn.
Problemet med 22,7% precision
Alvaro et al. (2024) utvärderade Presidios standardinställningar på blandade språk företagsdataset och fann 22,7% precision — vilket betyder att i verkliga företagsdokument motsvarar färre än 1 av 4 Presidio-detektioner faktisk PII. Denna siffra är i linje med praktikers fälterfarenhet: Presidio som är inställt för återkallande producerar oanvändbart brus i produktion.
En studie från 2024 som undersökte DICOM medicinska bildmetadata fann att även med score_threshold=0,7, 38 av 39 DICOM-bilder fortfarande hade falska positiva enheter. Tröskeln som eliminerar falska positiva för en dokumenttyp skapar falska negativa för en annan.
Precisionproblemet är inte unikt för Presidio — det speglar den inneboende svårigheten att bygga en högåterkallande PII-detekterare som också uppnår hög precision över olika dokumenttyper, språk och dataformat. Utmaningen är att varje fast tröskel representerar en avvägning: hög tröskel minskar falska positiva men ökar falska negativa; låg tröskel ökar återkallande men blåser upp falska positiva.
Den kontextmedvetna lösningen
Alternativet till tröskeljustering är kontextmedveten förtroendesk scoring. Istället för att tilldela förtroende baserat enbart på enhetsmönstret, ökar kontextmedveten scoring förtroendet när kontextord förekommer nära matchningen och dämpar falska positiva när kontext saknas.
För TFN-detektering: en poäng ökas när "tax file number," "TFN," eller "Australian tax" förekommer inom ett konfigurerbart fönster. Ett nummer som passerar TFN-checksumman utan närliggande kontextord får en reducerad förtroendepoäng som faller under granskningsgränsen.
För korsspråkliga falska positiva: enhetstyper som är specifika för vissa språk (tysk skattemyndighet, fransk NIR, australiensisk TFN) kan begränsas till dokument som upptäckts som det språket. En TFN-detekterare som tillämpas endast på engelska och australiensisk-engelska dokument eliminerar de systematiska falska positiva som uppstår när samma detektor körs på tyska dokument.
Den tredje nivån av hybriddetektering — transformerbaserade kontextmodeller — lägger till ett annat lager: modellen utvärderar hela den omgivande kontexten för att särskilja ett genuint personnamn ("John Smith, Patient ID 12345") från en falsk positiv (en produktidentifierare som råkar matcha ett namn mönster).
Källor: