Le vrai coût de la détection PII « gratuite »
« C'est gratuit » n'est pas une analyse de coût. C'est un prix de licence — un facteur parmi d'autres.
Microsoft Presidio coûte €0 à télécharger. Le logiciel est open-source. Mais le faire tourner en production dans une compagnie d'assurance coûte plus de €13 000 la première année. Cet écart, c'est du temps d'ingénierie.
Ce que demande un déploiement en production
Préparer l'outil pour la production prend 40 à 80 heures. Voici comment ce temps se répartit.
Configuration Docker : 4–8 heures. L'outil utilise plusieurs conteneurs. Un service d'analyse, un service d'anonymisation et un outil de masquage d'images optionnel. Les faire communiquer entre eux est difficile. Les issues GitHub montrent que c'est un point de défaillance fréquent.
Configuration Python : 2–4 heures. Les bibliothèques ont des règles de version strictes. Les conflits sont fréquents — surtout entre les versions des modèles spaCy et Python 3.8/3.9/3.10. GitHub recense des centaines d'issues ouvertes sur ce sujet.
Téléchargement des modèles de langue : 2–4 heures. Les modèles spaCy vont de 300 Mo à 1,4 Go chacun. Une installation cinq langues nécessite 1,5 à 7 Go de stockage. Les erreurs de chargement des modèles figurent parmi les problèmes de support les plus courants.
Reconnaisseurs personnalisés : 8–16 heures. L'ensemble par défaut couvre environ 40 types d'entités. La plupart sont des identifiants américains. Les déploiements UE ont besoin d'identifiants nationaux européens. Les équipes de santé ont besoin de formats de dossiers médicaux. Chaque type demande du code Python, une configuration YAML et des tests.
Configuration API : 4–8 heures. La config de production inclut les délais, l'authentification, les limites de débit et les logs. La documentation officielle est mince. La plupart des équipes trouvent des réponses dans les fils d'issues GitHub.
Journalisation d'audit : 4–8 heures. Le RGPD exige des registres de traitement des données. L'outil n'inclut pas de journal d'audit par défaut. Les équipes doivent l'écrire comme code personnalisé.
Documentation équipe : 4–8 heures.
Installation initiale totale : 28–52 heures à €100/heure = €2 800–5 200.
Coûts de maintenance annuels
L'outil publie des mises à jour 2 à 4 fois par an. Les versions majeures ont cassé des API. Rester à jour implique de suivre les changements, de tester en staging et de déployer.
Les mises à jour des modèles spaCy s'y ajoutent. Les nouvelles versions doivent être retéléchargées et vérifiées en précision avant mise en production.
Les conflits de dépendances Python reviennent régulièrement. Une installation propre aujourd'hui peut se casser quand un correctif de sécurité arrive le mois suivant.
La surveillance est permanente. Santé des conteneurs, fuites mémoire et procédures de redémarrage demandent une attention régulière. Les modèles spaCy sont gourmands en mémoire.
Maintenance annuelle totale : 60–120 heures à €100/heure = €6 000–12 000.
Un cas réel
Une équipe conformité dans une compagnie d'assurance voulait traiter des documents de sinistres. Elle disposait de deux ingénieurs données juniors et d'aucun support DevOps.
Semaine 1. Les deux conteneurs principaux ne pouvaient pas communiquer. Trois jours pour résoudre avec l'aide de GitHub.
Semaine 2. Les modèles ne se chargeaient pas en production. La configuration mémoire différait du setup de développement. Deux jours de diagnostic, un de plus pour corriger.
Semaine 3. Une règle personnalisée pour les numéros de sécurité sociale britanniques fonctionnait en tests mais générait des faux positifs sur de vrais documents. Deux jours supplémentaires d'ajustement.
Semaine 4. Le projet a été escaladé. Trois semaines d'ingénierie consommées. Toujours pas en production.
L'équipe a ensuite essayé anonym.legal. Premier document traité : 12 minutes après l'inscription. La détection des numéros de sécurité sociale britanniques était déjà intégrée. Aucune configuration nécessaire.
Ils sont passés à anonym.legal Professional à €180/an.
TCO comparatif pour la première année :
- Chemin auto-hébergé — 40–80 heures supplémentaires pour finir, puis €6 000–12 000/an de maintenance. Total : €10 000–20 000.
- anonym.legal Professional — €180/an. Temps de déploiement : ~12 minutes.
- Heures d'ingénierie économisées : ~132/an à €100/heure = €13 200.
Soit un écart de coût de 70x la première année.
Pour les équipes confrontées en plus à des problèmes de faux positifs, voir notre article sur le problème de précision de Presidio.
Quand l'auto-hébergement est judicieux
Le SaaS géré l'emporte pour la plupart des équipes. Mais l'auto-hébergement convient dans certains cas.
Souveraineté des données. Certaines réglementations ou contrats interdisent d'envoyer des données à l'extérieur. Notre application Desktop (anonym.plus) fonctionne entièrement hors ligne. Aucune donnée ne quitte la machine. Même précision, pas de serveur nécessaire.
Volume très élevé. Des millions d'appels API par jour peuvent faire dépasser le coût par appel par rapport aux coûts serveur. À cette échelle, posséder la stack est pertinent.
Intégration produit. Vous intégrez la détection PII dans votre propre produit et avez besoin d'un contrôle total ? Le développement open-source personnalisé est approprié ici.
DevOps existant. Les équipes avec une équipe plateforme gérant déjà de nombreux services ont un coût marginal plus faible. L'infrastructure est pour elles un coût irrécupérable.
Pour tous les autres — équipes conformité, startups, équipes sans DevOps — le SaaS géré est le meilleur choix. Voir notre aperçu de la conformité sécurité pour le détail du traitement hébergé en entreprise.
Conclusion
Les outils open-source ont des coûts qui n'apparaissent pas dans le prix de licence. Pour ce type d'outil, le coût dominant est le temps d'ingénierie. Installation : 40–80 heures. Maintenance annuelle : 60–120 heures. Aux tarifs habituels, le chemin auto-hébergé coûte 20 à 75 fois plus qu'un service géré.
La bonne question n'est pas « combien coûte le logiciel ? » C'est « combien coûte son exploitation ? » Pour la plupart des équipes, la réponse pointe clairement vers le SaaS géré.
Sources
Microsoft Presidio GitHub : Issues et documentation de configuration. VERIFIED-EXTERNAL.
Ploomber : Guide de déploiement Presidio en production. VERIFIED-EXTERNAL.
RGPD Article 32 : Mesures techniques pour une sécurité appropriée. VERIFIED-EXTERNAL.