By · Last updated 2026-04-03

Tillbaka till BloggenTeknisk

Falskt positiva: PII-verktygens dolda kostnad

Presidio GitHub-ärende #1071 dokumenterar systematiska falskt positiva resultat. En studie från 2024 fann 22,7 % precision i flerspråkiga företagsdataset.

April 3, 20268 min läsning
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Den osynliga efterlevnadsskatten

PII-identifieringsverktyg utvärderas vanligtvis utifrån recall — hur stor andel av faktiska PII fångade verktyget? Men precision — hur stor andel av verktygets identifieringar är faktiska PII — avgör den operativa kostnaden för att använda verktyget.

Ett system med 95 % recall och 22,7 % precision fångar 95 % av verkliga PII-entiteter men för varje verklig PII-entitet som identifieras flaggar det 3,4 falskt positiva. I ett dataset med 10 000 verkliga PII-entiteter genererar detta system 10 000 / 0,227 ≈ 44 000 totala identifieringar, varav 34 000 är falskt positiva som kräver manuell granskning eller orsakar överredaktion.

Detta är "falskt positiva-skatten": den operativa overhead som åläggs varje organisation som försöker använda ett PII-identifieringssystem med hög recall men låg precision i produktionsskala. Falskt positiva-skatten har direkta kostnader — manuell granskningstid — och indirekta kostnader: överredakterade dokument döljer relevant information, saktar ner arbetsflöden och minskar förtroendet för det automatiserade systemet.

Vad Presidio-ärende #1071 dokumenterar

Microsoft Presidios GitHub-diskussion #1071 (2024) dokumenterar ett specifikt och systematiskt falskt positivt mönster. TFN-igenkännare (Tax File Number) och PCI-igenkännare med kontrollsummavalidering producerar förtroendepoäng på 1,0 — maximal konfidence — för icke-PII-nummer som råkar passera kontrollsummealgoritmen.

Designproblemet: kontextordkontroll (verifiering av att ord som "tax file number" eller "TFN" förekommer nära den identifierade entiteten) tillämpas efter kontrollsummasteget snarare än före. Nummer som klarar kontrollsumman får poängen 1,0 oavsett kontext. I dokument som innehåller numeriska data — finansiella kalkylblad, vetenskapliga dataset, loggfiler — producerar detta en flod av falskt positiva som inte kan filtreras bort med poänströskel ensam.

Ett separat mönster från Presidio-gemenskapen (GitHub-ärende #999): tysk ordsegmentering skapar falskt positiva för namn- och platsentiteter. Tyska sammansättningar som "Bundesbehörde" (federal myndighet) eller vanliga tyska termer kan felaktigt segmenteras och identifieras som personnamn.

Problemet med 22,7 % precision

Alvaro m.fl. (2024) utvärderade Presidios standardinställningar på flerspråkiga företagsdataset och fann 22,7 % precision — det vill säga att i verkliga företagsdokument motsvarar färre än 1 av 4 Presidio-identifieringar faktisk PII. Denna siffra överensstämmer med utövarnas fälterfaring: Presidio inställt för recall producerar oanvändbart brus i produktion.

En studie från 2024 som undersökte DICOM medicinska bildmetadata fann att även med score_threshold=0,7 hade 38 av 39 DICOM-bilder fortfarande falskt positiva entiteter. Det tröskelvärde som eliminerar falskt positiva för en dokumenttyp skapar falskt negativa för en annan.

Precisionsproblemet är inte unikt för Presidio — det speglar den inneboende svårigheten att bygga en PII-identifierare med hög recall som också uppnår hög precision över diverse dokumenttyper, språk och dataformat. Utmaningen är att ett fast tröskelvärde representerar en avvägning: högt tröskelvärde minskar falskt positiva men ökar falskt negativa; lågt tröskelvärde ökar recall men blåser upp falskt positiva.

Den kontextmedvetna lösningen

Alternativet till tröskeljustering är kontextmedveten förtroendepoängsättning. Istället för att tilldela konfidence baserat enbart på entitetsmönstermatchningen höjer kontextmedveten poängsättning konfidensen när kontextord förekommer nära matchningen och undertrycker falskt positiva när kontext saknas.

För TFN-identifiering: en poäng höjs när "tax file number," "TFN," eller "australisk skatt" förekommer inom ett konfigurerbart fönster. Ett nummer som passerar TFN-kontrollsumman utan närstående kontextord får en reducerad förtroendepoäng som faller under granskningströskeln.

För tvärspråkiga falskt positiva: entitetstyper som är specifika för vissa språk (tyska skatteidentifierare, franska NIR, australiska TFN) kan begränsas till dokument som identifieras som det aktuella språket. En TFN-identifierare som enbart tillämpas på engelska och australisk-engelska dokument eliminerar de systematiska falskt positiva som uppstår när samma identifierare körs på tyska dokument.

Den tredje nivån av hybrididentifiering — transformatorbaserade kontextuella modeller — lägger till ett ytterligare lager: modellen utvärderar hela det omgivande sammanhanget för att skilja ett genuint personnamn ("Johan Svensson, Patient-ID 12345") från ett falskt positivt (en produktidentifierare som råkar matcha ett namnmönster).

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.