By · Last updated 2026-06-05

Retour au blogTechnique

Le problème de précision de 22,7 % de Presidio...

Une étude de référence de 2024 a révélé que le reconnaisseur de noms de personnes de Presidio atteint une précision de 22,7 % dans les documents...

June 5, 20267 min de lecture
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Le problème de précision à 22,7 % de Presidio

Les faux positifs dans la détection des PII causent de vrais dégâts. Quand 77,3 % de ce que votre outil signale comme « noms de personnes » ne sont pas de vrais noms, vous ne protégez pas la vie privée. Vous détruisez des données.

Un benchmark de 2024 a testé le modèle NER par défaut de Microsoft Presidio sur des documents professionnels. Le test couvrait des rapports financiers, des courriers clients, des docs produit et des tickets de support. Le résultat : 22,7 % de précision pour la détection de noms.

Ce chiffre est frappant. Sur 100 éléments signalés, 23 sont de vrais noms individuels. Les 77 autres sont des faux positifs — des libellés produit, des termes de marque ou des noms de villes.

Trois détections sur quatre sont incorrectes. Ce n'est pas un problème de calibration mineur. C'est un outil défaillant pour le traitement de documents professionnels.

Pourquoi cela se produit

Presidio utilise le modèle en_core_web_lg de spaCy par défaut. Ce modèle a été entraîné sur des textes journalistiques. Dans les journaux, la plupart des noms propres désignent de vraies personnes ou des lieux.

Les documents professionnels sont différents.

Libellés produit ressemblant à des noms individuels. « Apple iPhone 15 Pro données d'expédition » est signalé comme PERSON. Idem pour « Samsung Galaxy Tab » et « déploiement Cisco Meraki ».

Termes d'entreprise avec des parties ressemblant à des noms. Dans « résultats Johnson Controls », le mot « Johnson » est signalé comme PERSON. « Portefeuille Goldman Sachs » déclenche la même erreur.

Libellés de lieux déclenchant la détection de personnes. « Projet Victoria Harbour » signale « Victoria » comme PERSON. « Hub Santiago » signale « Santiago » de la même façon.

Le modèle manque du contexte pour distinguer « Apple » (entreprise) de « Apple Smith » (une personne). Cet écart est à l'origine de la plupart des faux positifs. Les textes journalistiques l'ont entraîné à traiter les noms propres comme des personnes ou des lieux. Les textes professionnels enfreignent cette règle en permanence.

L'effet en aval

Une entreprise d'analyse de données a utilisé Presidio pour nettoyer des enquêtes clients avant de les partager. Un audit a révélé quatre problèmes. Premièrement, 40 % des enquêtes avaient des libellés produit incorrectement supprimés. Deuxièmement, les noms de villes étaient effacés de chaque réponse. Troisièmement, les mentions de marques étaient supprimées de l'ensemble d'analyse. Quatrièmement, le sentiment sur des produits spécifiques ne pouvait plus être lu.

L'équipe d'analyse a reçu un texte expurgé dont toutes les références produit avaient été supprimées. L'enquête originale mentionnait l'iPhone Pro et le chargeur Apple. Ce sens était perdu.

L'entreprise ne protégeait pas mieux la vie privée. Elle détruisait des données sans gagner en conformité. Presidio a été remplacé après l'audit.

Consultez notre aperçu conformité pour savoir comment la qualité de détection affecte votre position réglementaire.

Une meilleure approche : la détection hybride

Le problème n'est pas propre à Presidio. Le NER au niveau des tokens sans contexte aura toujours ce problème. La solution est une détection contextuelle.

Pourquoi les transformers aident : Un modèle comme XLM-RoBERTa lit la phrase complète. « Apple a annoncé ses résultats » → Apple est une entreprise. « Apple Smith a rejoint l'équipe » → Apple est un prénom. Le contexte vous dit lequel est lequel.

Cela améliore la précision tout en maintenant un rappel élevé. Voir la comparaison ci-dessous.

ApprochePrécisionRappel
NER par défaut Presidio22,7 %~85 %
Regex seul~95 %~40 %
Hybride (Regex + NLP + Transformer)~85 %~80 %

L'approche hybride atteint 85 % de précision. Cela représente un taux de faux positifs de 15 %. Bien mieux que 77,3 %. Pour les documents professionnels, cet écart compte.

La pile hybride comprend quatre étapes :

  1. Couche Regex : Détecte les identifiants structurés — e-mails, numéros de téléphone, numéros de sécurité sociale, IBANs. Les formats sont fixes, les faux positifs rares. Cette couche s'exécute en premier.

  2. Couche NLP (spaCy) : NER standard pour les personnes, entreprises et lieux. Rappel élevé, précision plus faible.

  3. Couche Transformer (XLM-RoBERTa) : Réévalue chaque résultat NLP avec le contexte complet de la phrase. « Apple » dans un contexte produit perd son score d'entité. « John » dans un texte de plainte le gagne.

  4. Seuil de confiance : Seuls les résultats au-dessus d'un score défini passent à la sortie. Augmenter le seuil pour les cas d'usage analytiques. Le réduire pour la désidentification HIPAA.

Résultats après le changement

L'entreprise d'analyse est passée à la détection hybride. Les gains étaient clairs. Les faux positifs sur les libellés produit sont passés de 40 % à 3 %. Les faux positifs sur les noms de villes sont tombés à près de zéro. Le rappel sur les vraies identités est resté à ~82 %, légèrement en dessous de 85 %, mais la précision s'est nettement améliorée.

Les enquêtes sont redevenues utilisables. « iPhone », « Apple », « Samsung » et « Chicago » sont restés dans le texte. Les noms de clients dans les contextes de plainte ont été correctement anonymisés.

La détection hybride nécessite plus de calcul. Pour les grands volumes, les temps d'exécution sont un peu plus longs. Pour la plupart des cas d'usage professionnels, le gain de précision en vaut la peine. L'entreprise a pu relancer ses analyses. C'était tout l'intérêt des données d'enquête.

Consultez notre aperçu sécurité pour en savoir plus sur notre approche de détection.

Quand des taux élevés de faux positifs sont acceptables

Certains cas favorisent le rappel sur la précision.

HIPAA Safe Harbor : Manquer un vrai positif est une violation. Un taux de faux positifs de 10 % est acceptable si aucune PHI réelle n'est jamais manquée. La sur-suppression est préférable à la sous-suppression.

Révision juridique : Manquer un contact privilégié peut lever le privilège avocat-client. Les faux positifs nécessitent une révision mais ne créent pas de responsabilité.

Analytique professionnelle : La sur-suppression détruit les données sans gain de conformité. La précision compte plus ici. Utiliser une approche hybride avec un seuil de confiance élevé. Cela maintient les libellés de marques et les termes de villes dans la sortie. Seuls les vrais noms de personnes sont supprimés.

Le bon équilibre dépend de votre cas d'usage. Les outils permettant de régler le seuil vous donnent le contrôle. Aucun paramètre par défaut ne convient à tous les contextes.

Notre FAQ répond aux questions courantes sur les seuils et les modes de détection.

Conclusion

Un taux de précision de 22,7 % signifie que 3 détections sur 4 sont incorrectes. Pour les documents professionnels, cela rend la sortie inutilisable pour l'analyse. Cela donne aussi une fausse confiance en matière de conformité.

La détection hybride résout ce problème. Elle combine regex, NLP et scoring par transformer. Les données restent utiles après anonymisation. Les vrais noms de personnes sont supprimés. Les libellés de marques, les termes de villes et les identifiants produit restent en place.

Si vous avez quitté Presidio à cause des faux positifs, c'est la voie à suivre. Pas une nouvelle configuration du même modèle. Une architecture différente, conçue pour les contextes de documents professionnels.

Sources

Priva PII Benchmark 2024 : Évaluation de la précision Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio : Entités supportées et architecture du modèle. VERIFIED-EXTERNAL.

spaCy : Données d'entraînement et limites de en_core_web_lg. VERIFIED-EXTERNAL.

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.