Den osynliga efterlevnadsskatten
PII-identifieringsverktyg utvärderas vanligtvis utifrån recall — hur stor andel av faktiska PII fångade verktyget? Men precision — hur stor andel av verktygets identifieringar är faktiska PII — avgör den operativa kostnaden för att använda verktyget.
Ett system med 95 % recall och 22,7 % precision fångar 95 % av verkliga PII-entiteter men för varje verklig PII-entitet som identifieras flaggar det 3,4 falskt positiva. I ett dataset med 10 000 verkliga PII-entiteter genererar detta system 10 000 / 0,227 ≈ 44 000 totala identifieringar, varav 34 000 är falskt positiva som kräver manuell granskning eller orsakar överredaktion.
Detta är "falskt positiva-skatten": den operativa overhead som åläggs varje organisation som försöker använda ett PII-identifieringssystem med hög recall men låg precision i produktionsskala. Falskt positiva-skatten har direkta kostnader — manuell granskningstid — och indirekta kostnader: överredakterade dokument döljer relevant information, saktar ner arbetsflöden och minskar förtroendet för det automatiserade systemet.
Vad Presidio-ärende #1071 dokumenterar
Microsoft Presidios GitHub-diskussion #1071 (2024) dokumenterar ett specifikt och systematiskt falskt positivt mönster. TFN-igenkännare (Tax File Number) och PCI-igenkännare med kontrollsummavalidering producerar förtroendepoäng på 1,0 — maximal konfidence — för icke-PII-nummer som råkar passera kontrollsummealgoritmen.
Designproblemet: kontextordkontroll (verifiering av att ord som "tax file number" eller "TFN" förekommer nära den identifierade entiteten) tillämpas efter kontrollsummasteget snarare än före. Nummer som klarar kontrollsumman får poängen 1,0 oavsett kontext. I dokument som innehåller numeriska data — finansiella kalkylblad, vetenskapliga dataset, loggfiler — producerar detta en flod av falskt positiva som inte kan filtreras bort med poänströskel ensam.
Ett separat mönster från Presidio-gemenskapen (GitHub-ärende #999): tysk ordsegmentering skapar falskt positiva för namn- och platsentiteter. Tyska sammansättningar som "Bundesbehörde" (federal myndighet) eller vanliga tyska termer kan felaktigt segmenteras och identifieras som personnamn.
Problemet med 22,7 % precision
Alvaro m.fl. (2024) utvärderade Presidios standardinställningar på flerspråkiga företagsdataset och fann 22,7 % precision — det vill säga att i verkliga företagsdokument motsvarar färre än 1 av 4 Presidio-identifieringar faktisk PII. Denna siffra överensstämmer med utövarnas fälterfaring: Presidio inställt för recall producerar oanvändbart brus i produktion.
En studie från 2024 som undersökte DICOM medicinska bildmetadata fann att även med score_threshold=0,7 hade 38 av 39 DICOM-bilder fortfarande falskt positiva entiteter. Det tröskelvärde som eliminerar falskt positiva för en dokumenttyp skapar falskt negativa för en annan.
Precisionsproblemet är inte unikt för Presidio — det speglar den inneboende svårigheten att bygga en PII-identifierare med hög recall som också uppnår hög precision över diverse dokumenttyper, språk och dataformat. Utmaningen är att ett fast tröskelvärde representerar en avvägning: högt tröskelvärde minskar falskt positiva men ökar falskt negativa; lågt tröskelvärde ökar recall men blåser upp falskt positiva.
Den kontextmedvetna lösningen
Alternativet till tröskeljustering är kontextmedveten förtroendepoängsättning. Istället för att tilldela konfidence baserat enbart på entitetsmönstermatchningen höjer kontextmedveten poängsättning konfidensen när kontextord förekommer nära matchningen och undertrycker falskt positiva när kontext saknas.
För TFN-identifiering: en poäng höjs när "tax file number," "TFN," eller "australisk skatt" förekommer inom ett konfigurerbart fönster. Ett nummer som passerar TFN-kontrollsumman utan närstående kontextord får en reducerad förtroendepoäng som faller under granskningströskeln.
För tvärspråkiga falskt positiva: entitetstyper som är specifika för vissa språk (tyska skatteidentifierare, franska NIR, australiska TFN) kan begränsas till dokument som identifieras som det aktuella språket. En TFN-identifierare som enbart tillämpas på engelska och australisk-engelska dokument eliminerar de systematiska falskt positiva som uppstår när samma identifierare körs på tyska dokument.
Den tredje nivån av hybrididentifiering — transformatorbaserade kontextuella modeller — lägger till ett ytterligare lager: modellen utvärderar hela det omgivande sammanhanget för att skilja ett genuint personnamn ("Johan Svensson, Patient-ID 12345") från ett falskt positivt (en produktidentifierare som råkar matcha ett namnmönster).
Källor: