By · Last updated 2026-06-05

Retour au blogTechnique

Le Coût Réel de la Détection PII Open-Source...

L'auto-hébergement de Presidio nécessite 40-80 heures de configuration initiale et 5-10 heures/mois de maintenance continue.

June 5, 20267 min de lecture
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Le vrai coût de la détection PII « gratuite »

« C'est gratuit » n'est pas une analyse de coût. C'est un prix de licence — un facteur parmi d'autres.

Microsoft Presidio coûte €0 à télécharger. Le logiciel est open-source. Mais le faire tourner en production dans une compagnie d'assurance coûte plus de €13 000 la première année. Cet écart, c'est du temps d'ingénierie.

Ce que demande un déploiement en production

Préparer l'outil pour la production prend 40 à 80 heures. Voici comment ce temps se répartit.

Configuration Docker : 4–8 heures. L'outil utilise plusieurs conteneurs. Un service d'analyse, un service d'anonymisation et un outil de masquage d'images optionnel. Les faire communiquer entre eux est difficile. Les issues GitHub montrent que c'est un point de défaillance fréquent.

Configuration Python : 2–4 heures. Les bibliothèques ont des règles de version strictes. Les conflits sont fréquents — surtout entre les versions des modèles spaCy et Python 3.8/3.9/3.10. GitHub recense des centaines d'issues ouvertes sur ce sujet.

Téléchargement des modèles de langue : 2–4 heures. Les modèles spaCy vont de 300 Mo à 1,4 Go chacun. Une installation cinq langues nécessite 1,5 à 7 Go de stockage. Les erreurs de chargement des modèles figurent parmi les problèmes de support les plus courants.

Reconnaisseurs personnalisés : 8–16 heures. L'ensemble par défaut couvre environ 40 types d'entités. La plupart sont des identifiants américains. Les déploiements UE ont besoin d'identifiants nationaux européens. Les équipes de santé ont besoin de formats de dossiers médicaux. Chaque type demande du code Python, une configuration YAML et des tests.

Configuration API : 4–8 heures. La config de production inclut les délais, l'authentification, les limites de débit et les logs. La documentation officielle est mince. La plupart des équipes trouvent des réponses dans les fils d'issues GitHub.

Journalisation d'audit : 4–8 heures. Le RGPD exige des registres de traitement des données. L'outil n'inclut pas de journal d'audit par défaut. Les équipes doivent l'écrire comme code personnalisé.

Documentation équipe : 4–8 heures.

Installation initiale totale : 28–52 heures à €100/heure = €2 800–5 200.

Coûts de maintenance annuels

L'outil publie des mises à jour 2 à 4 fois par an. Les versions majeures ont cassé des API. Rester à jour implique de suivre les changements, de tester en staging et de déployer.

Les mises à jour des modèles spaCy s'y ajoutent. Les nouvelles versions doivent être retéléchargées et vérifiées en précision avant mise en production.

Les conflits de dépendances Python reviennent régulièrement. Une installation propre aujourd'hui peut se casser quand un correctif de sécurité arrive le mois suivant.

La surveillance est permanente. Santé des conteneurs, fuites mémoire et procédures de redémarrage demandent une attention régulière. Les modèles spaCy sont gourmands en mémoire.

Maintenance annuelle totale : 60–120 heures à €100/heure = €6 000–12 000.

Un cas réel

Une équipe conformité dans une compagnie d'assurance voulait traiter des documents de sinistres. Elle disposait de deux ingénieurs données juniors et d'aucun support DevOps.

Semaine 1. Les deux conteneurs principaux ne pouvaient pas communiquer. Trois jours pour résoudre avec l'aide de GitHub.

Semaine 2. Les modèles ne se chargeaient pas en production. La configuration mémoire différait du setup de développement. Deux jours de diagnostic, un de plus pour corriger.

Semaine 3. Une règle personnalisée pour les numéros de sécurité sociale britanniques fonctionnait en tests mais générait des faux positifs sur de vrais documents. Deux jours supplémentaires d'ajustement.

Semaine 4. Le projet a été escaladé. Trois semaines d'ingénierie consommées. Toujours pas en production.

L'équipe a ensuite essayé anonym.legal. Premier document traité : 12 minutes après l'inscription. La détection des numéros de sécurité sociale britanniques était déjà intégrée. Aucune configuration nécessaire.

Ils sont passés à anonym.legal Professional à €180/an.

TCO comparatif pour la première année :

  • Chemin auto-hébergé — 40–80 heures supplémentaires pour finir, puis €6 000–12 000/an de maintenance. Total : €10 000–20 000.
  • anonym.legal Professional — €180/an. Temps de déploiement : ~12 minutes.
  • Heures d'ingénierie économisées : ~132/an à €100/heure = €13 200.

Soit un écart de coût de 70x la première année.

Pour les équipes confrontées en plus à des problèmes de faux positifs, voir notre article sur le problème de précision de Presidio.

Quand l'auto-hébergement est judicieux

Le SaaS géré l'emporte pour la plupart des équipes. Mais l'auto-hébergement convient dans certains cas.

Souveraineté des données. Certaines réglementations ou contrats interdisent d'envoyer des données à l'extérieur. Notre application Desktop (anonym.plus) fonctionne entièrement hors ligne. Aucune donnée ne quitte la machine. Même précision, pas de serveur nécessaire.

Volume très élevé. Des millions d'appels API par jour peuvent faire dépasser le coût par appel par rapport aux coûts serveur. À cette échelle, posséder la stack est pertinent.

Intégration produit. Vous intégrez la détection PII dans votre propre produit et avez besoin d'un contrôle total ? Le développement open-source personnalisé est approprié ici.

DevOps existant. Les équipes avec une équipe plateforme gérant déjà de nombreux services ont un coût marginal plus faible. L'infrastructure est pour elles un coût irrécupérable.

Pour tous les autres — équipes conformité, startups, équipes sans DevOps — le SaaS géré est le meilleur choix. Voir notre aperçu de la conformité sécurité pour le détail du traitement hébergé en entreprise.

Conclusion

Les outils open-source ont des coûts qui n'apparaissent pas dans le prix de licence. Pour ce type d'outil, le coût dominant est le temps d'ingénierie. Installation : 40–80 heures. Maintenance annuelle : 60–120 heures. Aux tarifs habituels, le chemin auto-hébergé coûte 20 à 75 fois plus qu'un service géré.

La bonne question n'est pas « combien coûte le logiciel ? » C'est « combien coûte son exploitation ? » Pour la plupart des équipes, la réponse pointe clairement vers le SaaS géré.

Sources

Microsoft Presidio GitHub : Issues et documentation de configuration. VERIFIED-EXTERNAL.

Ploomber : Guide de déploiement Presidio en production. VERIFIED-EXTERNAL.

RGPD Article 32 : Mesures techniques pour une sécurité appropriée. VERIFIED-EXTERNAL.

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.