By · Last updated 2026-06-05

Tornar al BlogTècnic

El problema del 22,7% de precisio de Presidio

Una avaluacio de referencia de 2024 va trobar que el reconeixedor de noms de persones de Presidio assoleix una precisio del 22,7% en documents empresarials, es a dir, el 77,3% de les deteccions son falsos positius.

June 5, 20267 min llegit
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

El problema del 22,7% de precisio de Presidio

Els falsos positius en la deteccio de IIP causen danys reals. Quan el 77,3% del que la vostra eina marca com a "noms de persones" no son noms reals, no esteu protegint la privacitat. Esteu destruint dades.

Una avaluacio de referencia de 2024 va provar el model NER per defecte de Microsoft Presidio en documents empresarials. La prova va cobrir informes financers, cartes a clients, documentacio de productes i tiquets de suport. El resultat: una precisio del 22,7% en la deteccio de noms.

Aquest numero es sorprenent. Per cada 100 elements marcats, 23 son noms individuals reals. Els altres 77 son falsos positius: etiquetes de productes, termes de marca o etiquetes de ciutats.

Tres de cada quatre deteccions son incorrectes. Aixo no es un problema menor de calibratge. Es una eina trencada per a la feina amb documents empresarials.

Per que passa aixo

Presidio utilitza el model en_core_web_lg de spaCy per defecte. Aquest model va aprendre a partir de text periodistic. En les noticies, la majoria dels noms propis son persones o llocs reals.

Els documents empresarials son diferents.

Etiquetes de productes que semblen noms individuals. "Apple iPhone 15 Pro shipment records" es marca com a PERSONA. Igual que "Samsung Galaxy Tab" i "Cisco Meraki deployment".

Termes d'empresa amb parts que semblen noms. A "Johnson Controls results", la paraula "Johnson" es marca com a PERSONA. "Goldman Sachs portfolio" desencadena el mateix error.

Etiquetes de lloc que activen la deteccio de persones. "Victoria Harbour project" marca "Victoria" com a PERSONA. "Santiago hub" marca "Santiago" de la mateixa manera.

El model no te el context per distingir "Apple" (empresa) de "Apple Smith" (una persona). Aquesta mancanca es l'origen de la majoria de falsos positius. El text periodistic li va ensenyar a tractar els noms propis com a persones o llocs. El text empresarial trenca aquesta regla continuament.

L'efecte aigues avall

Una empresa de dades va utilitzar Presidio per netejar enquestes de clients abans de compartir-les. Una auditoria va trobar quatre problemes. Primer, el 40% de les enquestes tenien etiquetes de productes eliminades incorrectament. Segon, les etiquetes de ciutats van ser eliminades de totes les respostes. Tercer, les mencions de marques van ser esborrades del conjunt d'analisi. Quart, no es podia llegir el sentiment sobre productes especifics.

L'equip d'analisi va rebre text redactat amb totes les referencies a productes eliminades. L'enquesta originalment nomenava iPhone Pro i el carregador Apple. Aquell significat havia desaparegut.

L'empresa no estava protegint millor la privacitat. Estava trencant dades sense guanyar compliment normatiu. Presidio va ser substituida despres de l'auditoria.

Consulteu el nostre resum de compliment per saber com la qualitat de deteccio afecta la vostra situacio regulatoria.

Un enfocament millor: deteccio hibrida

El problema no es exclusiu de Presidio. El NER a nivell de token sense context sempre tindra aquest problema. La solucio es la deteccio sensible al context.

Per que els transformadors ajuden: Un model com XLM-RoBERTa llegeix la frase completa. "Apple announced its earnings" implica que Apple es una empresa. "Apple Smith joined the team" implica que Apple es un nom de pila. El context us diu quina es quina.

Aixo millora la precisio mantenint el recall alt. Vegeu la comparativa a continuacio.

EnfocamentPrecisioRecall
NER per defecte de Presidio22,7%~85%
Nomes regex~95%~40%
Hibrid (Regex + NLP + Transformer)~85%~80%

L'enfocament hibrid assoleix un 85% de precisio. Aixo significa una taxa de falsos positius del 15%. Molt millor que el 77,3%. Per a documents empresarials, aquesta diferencia importa.

L'arquitectura hibrida te quatre passos:

  1. Capa de regex: Troba identificadors estructurats: correus electronics, numeros de telefon, SSN, IBAN. Els formats son fixos, de manera que els falsos positius son rars. Aixo s'executa primer.

  2. Capa NLP (spaCy): NER estandard per a persones, empreses i llocs. Alt recall, menor precisio.

  3. Capa de transformer (XLM-RoBERTa): Puntua de nou cada resultat NLP utilitzant el context complet de la frase. "Apple" en un context de producte perd la seva puntuacio d'entitat. "John" en un text de reclamacio la guanya.

  4. Llindar de confianca: Nomes les deteccions per sobre d'una puntuacio determinada arriben a la sortida. Augmenteu el llindar per a casos d'us d'analisi. Baixeu-lo per a la desidentificacio HIPAA.

Resultats despres del canvi

L'empresa d'analisi va canviar a la deteccio hibrida. Els guanys van ser clars. Els falsos positius d'etiquetes de productes van caure del 40% al 3%. Els falsos positius d'etiquetes de ciutats van caure a prop de zero. El recall d'identitat real es va mantenir al ~82%, lleugerament inferior al 85%, pero la precisio va millorar molt.

Les enquestes van tornar a ser utilitzables. "iPhone", "Apple", "Samsung" i "Chicago" van romandre al text. Els noms de clients en contextos de reclamacio van ser eliminats correctament.

La deteccio hibrida requereix mes computacio. Per a treballs grans, els temps d'execucio son una mica mes llargs. Per a la majoria de casos d'us empresarials, el guany en precisio val la pena. L'empresa va poder tornar a fer analisi. Aquell era el proposit de les dades de l'enquesta.

Llegiu sobre el nostre enfocament de deteccio al resum de seguretat.

Quan son acceptables taxes altes de falsos positius

Alguns casos afavoreixen el recall per sobre de la precisio.

HIPAA Safe Harbor: Perdre un veritable positiu es una violacio. Una taxa de falsos positius del 10% esta be si mai es perd PHI real. L'eliminacio excessiva es mes segura que la insuficient.

Revisio legal: Perdre un contacte privilegiat pot revocar el privilegi. Els falsos positius necessiten revisio pero no creen responsabilitat.

Analisi empresarial: L'eliminacio excessiva trenca les dades sense guanyar compliment. La precisio importa mes aqui. Utilitzeu un enfocament hibrid amb un llindar de confianca alt. Aixo mante les etiquetes de marca i els termes de ciutats a la sortida. Nomes s'eliminen els noms de persones reals.

L'equilibri adequat depèn del vostre cas d'us. Les eines que us permeten establir el llindar us donen control. Cap valor per defecte unic funciona per a tots els contextos.

Consulteu les nostres FAQ per a preguntes freqüents sobre llindars i modes de deteccio.

Conclusio

Una taxa de precisio del 22,7% significa que 3 de cada 4 deteccions son incorrectes. Per a documents empresarials, aixo fa que la sortida sigui inutilitzable per a l'analisi. Tambe dona una falsa confianca sobre el compliment.

La deteccio hibrida ho soluciona. Combina regex, NLP i puntuacio de transformadors. Les dades romanen util despres de l'anonimitzacio. Els noms de persones reals s'eliminen. Les etiquetes de marques, els termes de ciutats i els identificadors de productes hi romanen.

Si vau deixar Presidio a causa de problemes de falsos positius, aquest es el cami a seguir. No una nova configuracio del mateix model. Una arquitectura diferent creada per a contextos de documents empresarials.

Fonts

Priva PII Benchmark 2024: Avaluacio de la precisio de Presidio. VERIFICAT-EXTERN.

Microsoft Presidio: Entitats compatibles i arquitectura del model. VERIFICAT-EXTERN.

spaCy: Dades d'entrenament i limitacions d'en_core_web_lg. VERIFICAT-EXTERN.

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.