Retour au blogTechnique

La taxe sur les faux positifs : Pourquoi le problème...

Le problème #1071 de Presidio sur GitHub documente des faux positifs systématiques.

April 3, 20268 min de lecture
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

La taxe de conformité invisible

Les outils de détection PII sont généralement évalués sur le rappel — quel pourcentage de PII réel l'outil a-t-il détecté ? Mais la précision — quel pourcentage des détections de l'outil sont de réels PII — détermine le coût opérationnel de l'utilisation de l'outil.

Un système avec 95 % de rappel et 22,7 % de précision détecte 95 % des vrais PII mais pour chaque entité PII réelle détectée, il signale 3,4 faux positifs. Dans un ensemble de données contenant 10 000 entités PII réelles, ce système génère 10 000 / 0,227 ≈ 44 000 détections au total, dont 34 000 sont des faux positifs nécessitant une révision manuelle ou provoquant une sur-rédaction.

C'est ce qu'on appelle la "taxe sur les faux positifs" : le coût opérationnel imposé à toute organisation qui essaie d'utiliser un système de détection PII à haut rappel et faible précision à l'échelle de la production. La taxe sur les faux positifs a des coûts directs — le temps des réviseurs manuels — et des coûts indirects : les documents sur-rédigés obscurcissent les informations pertinentes, ralentissent les flux de travail et réduisent la confiance dans le système automatisé.

Ce que documente le problème #1071 de Presidio

La discussion GitHub de Microsoft Presidio #1071 (2024) documente un modèle de faux positifs spécifique et systématique. Les reconnaisseurs TFN (Tax File Number) et PCI avec validation de somme de contrôle produisent des scores de confiance de 1,0 — confiance maximale — pour des numéros non-PII qui passent par hasard l'algorithme de somme de contrôle.

Le problème de conception : la vérification des mots de contexte (vérifiant que des mots comme "numéro de dossier fiscal" ou "TFN" apparaissent près de l'entité détectée) est appliquée après l'étape de somme de contrôle plutôt qu'avant. Les numéros qui passent la somme de contrôle obtiennent un score de 1,0 indépendamment du contexte. Dans des documents contenant des données numériques — tableurs financiers, ensembles de données scientifiques, fichiers journaux — cela produit une inondation de faux positifs qui ne peuvent pas être filtrés uniquement par seuil de score.

Un modèle distinct de la communauté Presidio (problème GitHub #999) : la segmentation des mots allemands crée des faux positifs pour les entités de nom et de localisation. Des composés allemands comme "Bundesbehörde" (autorité fédérale) ou des termes allemands courants peuvent être incorrectement segmentés et détectés comme des noms personnels.

Le problème de précision de 22,7 %

Alvaro et al. (2024) ont évalué les paramètres par défaut de Presidio sur des ensembles de données d'entreprise en langues mixtes et ont trouvé 22,7 % de précision — ce qui signifie que dans de vrais documents d'entreprise, moins d'1 sur 4 des détections de Presidio correspond à un PII réel. Ce chiffre est cohérent avec l'expérience des praticiens sur le terrain : Presidio réglé pour le rappel produit un bruit inutilisable en production.

Une étude de 2024 examinant les métadonnées d'imagerie médicale DICOM a trouvé qu'en utilisant score_threshold=0.7, 38 des 39 images DICOM avaient encore des entités de faux positifs. Le seuil qui élimine les faux positifs pour un type de document crée des faux négatifs pour un autre.

Le problème de précision n'est pas unique à Presidio — il reflète la difficulté inhérente à la construction d'un détecteur PII à haut rappel qui atteint également une haute précision à travers divers types de documents, langues et formats de données. Le défi est que tout seuil fixe représente un compromis : un seuil élevé réduit les faux positifs mais augmente les faux négatifs ; un seuil bas augmente le rappel mais gonfle les faux positifs.

La solution consciente du contexte

L'alternative à l'ajustement de seuil est le scoring de confiance conscient du contexte. Plutôt que d'attribuer une confiance uniquement sur la correspondance du modèle d'entité, le scoring conscient du contexte augmente la confiance lorsque des mots de contexte apparaissent près de la correspondance et supprime les faux positifs lorsque le contexte est absent.

Pour la détection de TFN : un score est augmenté lorsque "numéro de dossier fiscal", "TFN" ou "taxe australienne" apparaît dans une fenêtre configurable. Un numéro passant la somme de contrôle TFN sans mots de contexte à proximité reçoit un score de confiance réduit qui tombe en dessous du seuil de révision.

Pour les faux positifs interlinguaux : les types d'entités spécifiques à certaines langues (ID fiscal allemand, NIR français, TFN australien) peuvent être limités aux documents détectés comme étant cette langue. Un détecteur TFN appliqué uniquement aux documents en anglais et en anglais australien élimine les faux positifs systématiques qui se produisent lorsque le même détecteur fonctionne sur des documents allemands.

Le troisième niveau de détection hybride — modèles contextuels basés sur des transformateurs — ajoute une autre couche : le modèle évalue le contexte environnant complet pour distinguer un vrai nom personnel ("John Smith, Patient ID 12345") d'un faux positif (un identifiant de produit qui correspond par hasard à un modèle de nom).

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.