By · Last updated 2026-06-05

Tilbage til BlogTeknisk

Presidios 22,7%-Precisionsproblem med Falske Positiver

Et benchmark fra 2024 viste, at Presidios navnegenkender opnår 22,7% præcision i forretningsdokumenter — altså er 77,3% af detektionerne falske positiver. Hybrid-detektion løser problemet.

June 5, 20267 min læsning
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidios 22,7%-Precisionsproblem

Falske positiver i PII-detektion forårsager reel skade. Når 77,3% af det, dit værktøj markerer som "personnavne", ikke er rigtige navne, beskytter du ikke privatlivet. Du ødelægger data.

Et benchmark fra 2024 testede Microsoft Presidios standard-NER-model på forretningsdokumenter. Testen dækkede finansielle rapporter, kundebreve, produktdokumenter og supportbilletter. Resultatet: 22,7% præcision ved navnedetektion.

Det tal er slående. For hver 100 markerede elementer er 23 rigtige individuelle navne. De resterende 77 er falske positiver — produktmærker, brandnavne eller bynavne.

Tre ud af fire detektioner er forkerte. Det er ikke et mindre kalibrerings問題. Det er et ødelagt værktøj til arbejde med forretningsdokumenter.

Hvorfor Dette Sker

Presidio bruger spaCys en_core_web_lg-model som standard. Denne model er trænet på nyhedstekster. I nyheder er de fleste egennavne rigtige personer eller steder.

Forretningsdokumenter er anderledes.

Produktmærker, der ligner personnavne. "Apple iPhone 15 Pro shipment records" markeres som PERSON. Det samme gælder "Samsung Galaxy Tab" og "Cisco Meraki deployment."

Virksomhedsbegreber med navnelignende dele. I "Johnson Controls results" markeres ordet "Johnson" som PERSON. "Goldman Sachs portfolio" udløser den samme fejl.

Stednavne, der udløser persondetektion. "Victoria Harbour project" markerer "Victoria" som PERSON. "Santiago hub" markerer "Santiago" på samme måde.

Modellen mangler kontekst til at skelne "Apple" (virksomhed) fra "Apple Smith" (en person). Den kløft er roden til de fleste falske positiver. Nyhedstekster lærte den at behandle egennavne som personer eller steder. Forretningsdokumenter bryder den regel hele tiden.

Den Efterfølgende Effekt

Et datafirma brugte Presidio til at rense kundeundersøgelser, inden de blev delt. En revision fandt fire problemer. For det første var produktmærker forkert fjernet i 40% af undersøgelserne. For det andet var bynavne fjernet fra alle svar. For det tredje var brandnavne slettet fra analysen. For det fjerde kunne sentiment om specifikke produkter ikke aflæses.

Analyseteamet modtog redigeret tekst, hvori alle produktreferencer var fjernet. Undersøgelsen havde oprindeligt nævnt iPhone Pro og Apple-opladeren. Den mening var borte.

Firmaet beskyttede ikke privatlivet bedre. Det ødelagde data uden at opnå compliance. Presidio blev udskiftet efter revisionen.

Se vores compliance-oversigt for, hvordan detektionskvalitet påvirker din regulatoriske stilling.

En Bedre Tilgang: Hybrid-Detektion

Problemet er ikke unikt for Presidio. Token-niveau-NER uden kontekst vil altid have dette problem. Løsningen er kontekstbevidst detektion.

Hvorfor transformere hjælper: En model som XLM-RoBERTa læser hele sætningen. "Apple announced its earnings" → Apple er en virksomhed. "Apple Smith joined the team" → Apple er et fornavn. Konteksten fortæller dig, hvilken det er.

Dette forbedrer præcisionen, mens recall holdes høj. Se sammenligningen nedenfor.

TilgangPræcisionRecall
Presidio standard-NER22,7%~85%
Kun regex~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

Hybrid-tilgangen opnår 85% præcision. Det svarer til en falsk positivrate på 15%. Langt bedre end 77,3%. For forretningsdokumenter betyder denne kløft meget.

Hybrid-stakken har fire trin:

  1. Regex-lag: Finder strukturerede ID'er — e-mails, telefonnumre, SSN'er, IBAN'er. Formaterne er faste, så falske positiver er sjældne. Dette kører først.

  2. NLP-lag (spaCy): Standard-NER til personer, virksomheder og steder. Høj recall, lavere præcision.

  3. Transformer-lag (XLM-RoBERTa): Genvurderer hvert NLP-resultat ved hjælp af fuld sætningskontekst. "Apple" i en produktsammenhæng mister sin enhedsscore. "John" i en klagetekst vinder den.

  4. Konfidenstærskel: Kun fund over en fastsat score går videre til outputtet. Hæv tærsklen til analytiske anvendelser. Sænk den til HIPAA-afidentifikation.

Resultater Efter Skiftet

Analysefirmaet skiftede til hybrid-detektion. Gevinsterne var tydelige. Falske positiver for produktmærker faldt fra 40% til 3%. Falske positiver for bynavne faldt til næsten nul. Recall for rigtige identiteter forblev på ~82%, lidt under 85%, men præcisionen forbedredes markant.

Undersøgelserne blev brugbare igen. "iPhone", "Apple", "Samsung" og "Chicago" forblev i teksten. Kundenavne i klagesammenhænge blev korrekt fjernet.

Hybrid-detektion kræver mere beregningskraft. Køretiderne for store jobs er lidt længere. For de fleste forretningsmæssige anvendelser er præcisionsgevinsten det værd. Firmaet kunne igen køre analyser. Det var hele pointen med undersøgelsesdataene.

Læs om vores detektionstilgang i sikkerhedsoversigten.

Hvornår Høje Falsk Positiv-Rater Er Acceptable

Visse tilfælde favoriserer recall frem for præcision.

HIPAA Safe Harbor: At misse en reel positiv er en overtrædelse. En falsk positivrate på 10% er acceptabel, hvis rigtig PHI aldrig overses. Overfjernelse er sikrere end underfjernelse.

Juridisk gennemgang: At misse en privilegeret kontakt kan ophæve fortrolighed. Falske positiver kræver gennemgang, men skaber ikke ansvar.

Forretningsanalyse: Overfjernelse ødelægger data uden en compliance-gevinst. Præcision betyder mere her. Brug en hybrid-tilgang med en høj konfidenstærskel. Dette holder brandmærker og bynavne i outputtet. Kun rigtige personnavne fjernes.

Den rette balance afhænger af dit anvendelsestilfælde. Værktøjer, der lader dig indstille tærsklen, giver dig kontrol. Ingen enkelt standard virker i alle sammenhænge.

Se vores FAQ for hyppige spørgsmål om tærskler og detektionstilstande.

Konklusion

En præcisionsrate på 22,7% betyder, at 3 ud af 4 detektioner er forkerte. For forretningsdokumenter gør det output ubrugeligt til analyse. Det giver også falsk tryghed om compliance.

Hybrid-detektion løser dette. Den kombinerer regex, NLP og transformer-scoring. Data forbliver brugbare efter anonymisering. Rigtige personnavne fjernes. Brandmærker, bynavne og produktidentifikatorer forbliver.

Hvis du har forladt Presidio på grund af falsk positiv-problemer, er dette vejen frem. Ikke en ny konfiguration af den samme model. En anderledes arkitektur bygget til forretningsdokumenter.

Kilder

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.