Retour au blogGDPR & Conformité

Ce que Presidio oublie : Les 220+ types d'entités essentiels pour la détection de PII conforme au GDPR

Presidio est livré avec environ 40 reconnaisseurs d'entités par défaut axés sur les identifiants américains. Les organisations européennes ont besoin de formats IBAN, Codice Fiscale, Steueridentifikationsnummer, de permis de conduire de l'UE et d'identifiants de santé nationaux — tous absents des paramètres par défaut de Presidio.

March 7, 20267 min de lecture
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Ce que Presidio oublie : Les 220+ types d'entités essentiels pour la détection de PII conforme au GDPR

Microsoft Presidio est livré avec environ 40 reconnaisseurs d'entités par défaut. Pour les déploiements basés aux États-Unis traitant des documents centrés sur les États-Unis, cela couvre les catégories essentielles : SSN, passeports américains, permis de conduire américains, cartes de crédit, adresses e-mail, numéros de téléphone et noms de personnes.

Pour les déploiements dans l'UE, l'écart de couverture est significatif. Le GDPR s'applique à toutes les données personnelles de l'UE, quelle que soit la nationalité. Les organisations de l'UE traitant les données de leurs propres citoyens ont besoin de reconnaisseurs que Presidio ne fournit pas par défaut.

La bibliothèque d'entités par défaut de Presidio

Les reconnaisseurs par défaut de Presidio incluent :

Identifiants centrés sur les États-Unis :

  • Numéro de sécurité sociale américain (SSN)
  • Numéro de passeport américain
  • Numéro de permis de conduire américain (formats de plusieurs États)
  • Numéro de compte bancaire américain
  • ITIN américain (Numéro d'identification de contribuable individuel)
  • Numéro de licence médicale américaine

Identifiants universels :

  • Adresse e-mail
  • Numéro de téléphone (priorité au format centré sur les États-Unis)
  • Adresse IP
  • Numéro de carte de crédit (algorithme de Luhn)
  • Adresse de portefeuille crypto
  • URL

Entités textuelles génériques :

  • PERSONNE (basé sur NER)
  • LOCALISATION (basé sur NER)
  • ORGANISATION (basé sur NER)
  • DATE_HEURE (basé sur NER)

Couverture internationale limitée :

  • Numéro NHS du Royaume-Uni
  • Numéro d'assurance nationale du Royaume-Uni (NINO)
  • Identifiants d'entités financières (certains)

Total : ~40 reconnaisseurs

Ce dont les organisations de l'UE ont réellement besoin

Identifiants financiers : L'IBAN (Numéro de compte bancaire international) apparaît dans pratiquement tous les documents commerciaux de l'UE impliquant des paiements, des virements, des factures et des paies. Les formats IBAN varient selon les pays mais suivent une norme internationale (ISO 13616). Presidio n'a pas de reconnaisseur IBAN par défaut.

Une fintech allemande traitant les enregistrements de paiement des clients traite les numéros IBAN dans chaque document de transaction. Sans reconnaissance IBAN, ces documents sont traités avec la détection de carte de crédit active (détection des numéros de carte) mais les champs IBAN (l'identifiant de paiement principal de l'UE) sont complètement ignorés.

Identifiants fiscaux nationaux :

  • Steueridentifikationsnummer allemande : 11 chiffres
  • NIR français (Numéro d'Inscription au Répertoire) : 13 caractères alphanumériques
  • Codice Fiscale italien : 16 caractères alphanumériques avec validation structurelle
  • NIF/NIE espagnol : 9 caractères avec suffixe/préfixe lettre
  • BSN néerlandais : 9 chiffres avec validation à 11 preuves

Aucun de ceux-ci n'est dans la bibliothèque d'entités par défaut de Presidio. Un processeur de paie de l'UE traitant des documents d'employés de plusieurs États membres est effectivement aveugle à leurs identifiants financiers les plus sensibles.

Identifiants de santé nationaux :

  • Numéro NHS du Royaume-Uni : 10 chiffres avec vérification modulo-11
  • Numéro de sécurité sociale français (NIR) : Sert également d'identifiant de santé
  • Numéro de caisse d'assurance maladie allemand : Alphanumérique, spécifique à l'assureur
  • Codice Fiscale italien : Utilisé également comme identifiant de santé
  • BSN des Pays-Bas : Utilisé également pour l'assurance maladie

Les organisations de santé à travers l'UE ont besoin de ces identifiants pour une protection des données de santé équivalente à celle du HIPAA. Presidio fournit le numéro NHS du Royaume-Uni mais manque les identifiants de santé continentaux européens.

Formats de permis de conduire de l'UE : Presidio a des reconnaisseurs de permis de conduire américains (spécifiques à l'État). Les formats de permis de conduire de l'UE sont standardisés selon la directive 2006/126/CE mais varient selon les États membres dans leur structure alphanumérique. Aucun reconnaisseur de permis de conduire de l'UE dans les paramètres par défaut de Presidio.

Numéros d'enregistrement de TVA : Les numéros de TVA de l'UE apparaissent dans chaque transaction interentreprises. Format : code pays (2 lettres) + 8-12 chiffres alphanumériques. Presidio n'a pas de reconnaisseur de numéro de TVA. Pour les entreprises de l'UE partageant des factures, des contrats et des documents commerciaux, les numéros de TVA sont des identifiants qui lient aux entités commerciales enregistrées et à leurs directeurs.

Formats de passeport de l'UE : Reconnaissance de passeport américain dans Presidio, mais les formats de passeport de l'UE (en particulier le format de la zone lisible par machine) ne sont pas couverts.

Le coût d'ingénierie du développement de reconnaisseurs personnalisés

Lorsque les organisations de l'UE déploient Presidio et découvrent l'écart de couverture des entités, la réponse est généralement le développement de reconnaisseurs personnalisés. Le coût :

Temps de développement par reconnaisseur :

  • Recherche sur le format de l'identifiant : 1-2 heures
  • Écrire la classe PatternRecognizer en Python : 2-4 heures
  • Implémenter regex avec logique de validation : 2-4 heures
  • Configurer des mots contextuels pour améliorer la précision : 1-2 heures
  • Écrire des tests : 2-3 heures
  • Intégrer et tester dans le déploiement : 1-2 heures

Par reconnaisseur : 9-17 heures.

Pour une fintech allemande ayant besoin d'IBAN + Steuer-ID + permis de conduire de l'UE + TVA allemande + IBAN :

  • 4 reconnaisseurs personnalisés × 13 heures en moyenne = 52 heures d'ingénierie
  • À 100 €/heure : 5 200 € pour le développement de reconnaisseurs personnalisés

Plus la maintenance continue à mesure que les formats changent, que de nouveaux cas de test émergent et que les mises à jour de l'API Presidio nécessitent des modifications de reconnaisseurs.

Coût total pour la couverture GDPR de l'UE en plus de Presidio : 5 200 € + maintenance continue

L'alternative : bibliothèques d'entités gérées

anonym.legal étend la fondation de Presidio avec plus de 285 types d'entités maintenus par l'équipe de développement — y compris les identifiants spécifiques à l'UE que les paramètres par défaut de Presidio manquent :

Points forts de la couverture au-delà des paramètres par défaut de Presidio :

  • IBAN (tous les formats des États membres de l'UE)
  • Identifiants fiscaux des États membres de l'UE (y compris Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, et d'autres)
  • Identifiants de santé nationaux de l'UE
  • Numéros de TVA (format de l'UE)
  • Formats de permis de conduire de l'UE
  • Formats de passeport européens
  • Toutes les 48 variations d'entités en langues prises en charge

Maintenance : Les mises à jour de la bibliothèque d'entités sont poussées dans le cadre du service géré. Lorsque l'Allemagne introduit un nouveau format d'identifiant fiscal, les utilisateurs obtiennent le reconnaisseur sans avoir à soumettre une demande de tirage.

Extension personnalisée : Pour les identifiants spécifiques à l'organisation qui ne figurent pas dans la bibliothèque, le constructeur d'entités personnalisées permet d'ajouter des motifs sans code Python.

L'exemple de la fintech allemande

Une fintech allemande a besoin de détecter les IBAN, BIC, ID fiscaux allemands (Steuer-ID) et numéros d'enregistrement commercial allemands (Handelsregisternummer) dans les documents des clients.

Taux de détection par défaut de Presidio pour ces 4 types d'entités : 0%

Pas de faible précision, pas de faux positifs — zéro détection. Aucun des 4 types d'entités n'apparaît dans la bibliothèque d'entités par défaut de Presidio.

Écriture de reconnaisseurs personnalisés : 4 reconnaisseurs × 13 heures = 52 heures = 5 200 € aux taux d'ingénierie.

Utilisation de la bibliothèque d'entités gérée avec les 4 couverts : 180 €/an (plan professionnel).

Coût pour atteindre la détection conforme au GDPR de ces identifiants financiers allemands :

  • Route Presidio : 5 200 € d'ingénierie + coûts opérationnels de Presidio
  • Route du service géré : 180 €/an, détectant les 4 d'emblée

L'écart est de 28x la première année. Pour chaque année d'exploitation, le temps d'ingénierie pour la maintenance des reconnaisseurs personnalisés s'ajoute au coût de Presidio tandis que le coût du service géré reste fixe.

Conclusion

Les ~40 reconnaisseurs par défaut de Presidio servent bien les cas d'utilisation centrés sur les États-Unis. Pour les déploiements dans l'UE nécessitant une conformité au GDPR à travers des identifiants spécifiques aux États membres, la couverture prête à l'emploi est insuffisante. L'écart est comblé soit par le développement de reconnaisseurs personnalisés (coûteux, long) soit par un service géré qui maintient la couverture des entités de l'UE dans le cadre de l'abonnement.

Pour les organisations de l'UE où la conformité est non négociable et les ressources d'ingénierie sont limitées, la bibliothèque d'entités de l'UE préconstruite du service géré élimine un projet de développement personnalisé de plus de 50 heures avant l'anonymisation du premier document.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.