By · Last updated 2026-06-05

Tilbake til BloggTeknisk

Presidios presisjonsproblem på 22,7 %

En benchmark fra 2024 viste at Presidios gjenkjenner for personnavn oppnår 22,7 % presisjon i forretningsdokumenter — det betyr at 77,3 % av deteksjonene er falske positiver.

June 5, 20267 min lesing
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidios presisjonsproblem på 22,7 %

Falske positiver i PII-deteksjon forårsaker reell skade. Når 77,3 % av det verktoyets flagges som "personnavn" ikke er ekte navn, beskytter du ikke personvernet. Du odelegger data.

En benchmark fra 2024 testet Microsoft Presidios standard NER-modell på forretningsdokumenter. Testen dekket finansrapporter, kundebrev, produktdokumenter og supporthenvendelser. Resultatet: 22,7 % presisjon for navnedeteksjon.

Det tallet er slående. For hver 100 elementer som flagges, er 23 ekte individuelle navn. De andre 77 er falske positiver — produktetiketter, merkenavn eller stedsnavn.

Tre av fire deteksjoner er feil. Det er ikke et mindre kalibreringsproblem. Det er et odelagt verktoy for arbeid med forretningsdokumenter.

Hvorfor dette skjer

Presidio bruker spaCys en_core_web_lg-modell som standard. Denne modellen ble traent på nyhetsartikler. I nyheter er de fleste egennavn ekte personer eller steder.

Forretningsdokumenter er annerledes.

Produktetiketter som ligner personnavn. "Apple iPhone 15 Pro-leveringsregistre" flagges som PERSON. Det gjor "Samsung Galaxy Tab" og "Cisco Meraki-distribusjon" også.

Selskapsbetegnelser med navnelignende deler. I "Johnson Controls-resultater" flagges ordet "Johnson" som PERSON. "Goldman Sachs-portefolje" utloser samme feil.

Stedsetiketter som utloser persondeteksjon. "Victoria Harbour-prosjektet" flaggerer "Victoria" som PERSON. "Santiago-hub" flaggerer "Santiago" på samme måte.

Modellen mangler kontekst til å skille "Apple" (selskap) fra "Apple Smith" (en person). Denne mangelen er roten til de fleste falske positiver. Nyhetsartikler laerte den å behandle egennavn som personer eller steder. Forretningsartikler bryter den regelen hele tiden.

Nedstroms konsekvenser

Et datafirma brukte Presidio til å rense kundeundersokelser for deling. En revisjon avslote fire problemer. For det forste hadde 40 % av undersokelsene produktetiketter som feilaktig var fjernet. For det andre ble stedsetiketter stripper fra hvert svar. For det tredje ble merkenner vasket ut fra analysesettet. For det fjerde kunne man ikke lese sentiment om spesifikke produkter.

Analyseteamet fikk redigert tekst der alle produktreferanser var fjernet. Undersokelsen hadde opprinnelig nevnt iPhone Pro og Apple-laderen. Den meningen var borte.

Firmaet beskyttet ikke personvernet bedre. Det odela data uten å oppnå compliance. Presidio ble erstattet etter revisjonen.

Se vår compliance-oversikt for hvordan deteksjonskvalitet påvirker din regulatoriske stilling.

En bedre tilnaerming: Hybrid deteksjon

Problemet er ikke unikt for Presidio. Token-nivå NER uten kontekst vil alltid ha dette problemet. Losningen er kontekstbevisst deteksjon.

Hvorfor transformere hjelper: En modell som XLM-RoBERTa leser hele setningen. "Apple kunngjorde sine resultater" → Apple er et selskap. "Apple Smith ble med i teamet" → Apple er et fornavn. Konteksten forteller deg hvilken det er.

Dette forbedrer presisjonen mens man holder recall hoy. Se sammenligningen nedenfor.

TilnaermingPresisjonRecall
Presidio standard NER22,7 %~85 %
Kun regex~95 %~40 %
Hybrid (Regex + NLP + Transformer)~85 %~80 %

Hybridtilnaermingen oppnår 85 % presisjon. Det betyr en 15 % falsk positiv-rate. Langt bedre enn 77,3 %. For forretningsdokumenter betyr dette gapet mye.

Hybridstakken har fire trinn:

  1. Regex-lag: Finner strukturerte ID-er — e-postadresser, telefonnumre, SSN-er, IBAN-er. Formater er faste, så falske positiver er sjeldne. Dette kjorer forst.

  2. NLP-lag (spaCy): Standard NER for personer, selskaper og steder. Hoy recall, lavere presisjon.

  3. Transformer-lag (XLM-RoBERTa): Revurderer hvert NLP-resultat ved hjelp av full setningskontekst. "Apple" i en produktkontekst mister enhetsscoren sin. "John" i en klagetekst far den.

  4. Konfidensstokkel: Bare treff over et angitt score-nivå passerer til output. Hev stokkelen for analytiske brukstilfeller. Senk den for HIPAA-avidentifisering.

Resultater etter bytte

Analysefirmaet byttet til hybrid deteksjon. Gevinsten var tydelig. Falske positiver for produktetiketter falt fra 40 % til 3 %. Falske positiver for stedsetiketter falt til naer null. Reell identitetsrecall ble liggende på ~82 %, litt ned fra 85 %, men presisjonen forbedret seg mye.

Undersokelsene ble brukbare igjen. "iPhone", "Apple", "Samsung" og "Chicago" ble vaerende i teksten. Kundernavn i klagekontekst ble korrekt fjernet.

Hybrid deteksjon krever mer beregningskraft. For store jobber er kjoretidene litt lenger. For de fleste forretningsbrukstilfeller er noyaktighetsgevinsten verdt det. Firmaet kunne kjore analyser igjen. Det var hele poenget med undersokelsesdataene.

Les om vår deteksjonstilnaerming i sikkerhetsoversikten.

Når hoy falsk positiv-rate er akseptabel

Noen tilfeller foretrekker recall fremfor presisjon.

HIPAA Safe Harbor: Å miste en ekte positiv er et brudd. En 10 % falsk positiv-rate er akseptabel hvis ekte PHI aldri er savnet. Over-fjerning er tryggere enn under-fjerning.

Juridisk gjennomgang: Å miste en privilegert kontakt kan frafalle privilegiet. Falske positiver trenger gjennomgang, men skaper ikke ansvar.

Forretningsanalyse: Over-fjerning odelegger data uten en compliance-gevinst. Presisjon betyr mer her. Bruk en hybridtilnaerming med hoy konfidensstokkel. Dette beholder merkenavn og stedsbetegnelser i output. Bare faktiske personnavn fjernes.

Riktig balanse avhenger av brukstilfelle. Verktoy som lar deg sette stokkelen gir deg kontroll. Ingen enkelt standard fungerer for alle kontekster.

Se vår FAQ for vanlige sporsmal om stokkler og deteksjonsmodi.

Konklusjon

En presisjon på 22,7 % betyr at 3 av 4 deteksjoner er feil. For forretningsdokumenter gjor det output ubrukelig for analyse. Det gir også falsk trygghet om compliance.

Hybrid deteksjon fikser dette. Den kombinerer regex, NLP og transformer-scoring. Data forblir nyttige etter anonymisering. Ekte personnavn fjernes. Merkenavn, stedsbetegnelser og produktidentifikatorer forblir.

Hvis du forlot Presidio på grunn av falsk positiv-problemer, er dette veien videre. Ikke en ny konfigurasjon av samme modell. En annen arkitektur bygget for forretningsdokumentkontekster.

Kilder

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.