Pourquoi les identifiants européens sont structurellement différents
Les outils PII construits aux États-Unis supposent une structure d'identifiant basée sur des formats américains : Numéros de sécurité sociale (AAA-BB-CCCC), numéros de téléphone américains (XXX-XXX-XXXX), formats de permis de conduire américains par état, et codes postaux américains (XXXXX ou XXXXX-XXXX). Ces outils n'ont pas été conçus pour les formats d'identifiant européens — et les formats européens ne sont pas de simples variations mineures des formats américains. Ils sont structurellement différents, culturellement différents, et légalement définis par la législation nationale qui n'a pas d'équivalent américain.
Le Steuer-ID allemand illustre cette différence structurelle. Le numéro à 11 chiffres utilise un algorithme de contrôle spécifique — le premier chiffre ne peut pas être 0, aucun chiffre ne peut apparaître plus de trois fois consécutivement, et une formule mathématique impliquant les positions des chiffres produit le chiffre de contrôle final. L'algorithme de validation est publié par le Bundeszentralamt für Steuern. Une regex SSN américaine ne correspondra pas à un Steuer-ID. La logique de validation de contrôle pour un SSN ne validera pas un Steuer-ID.
Le NIR français (Numéro de Sécurité Sociale) est composé de 15 chiffres. La structure est sémantiquement significative : la position 1 encode le sexe (1 = homme, 2 = femme), les positions 2–3 encodent les deux derniers chiffres de l'année de naissance, les positions 4–5 encodent le mois de naissance, les positions 6–7 encodent le département de naissance, les positions 8–10 encodent la commune, les positions 11–13 encodent l'ordre au sein de la commune, et les positions 14–15 sont une clé de contrôle dérivée de la division du numéro à 13 chiffres par 97. Le NIR n'est détectable par aucune regex d'identifiant au format américain. Il nécessite une mise en œuvre spécifique au pays.
L'écart de conformité paneuropéenne
Le rapport d'IBM sur le coût d'une violation de données en 2025 a révélé que 10,22 millions de dollars est le coût moyen d'une violation de données de santé — le plus élevé de tous les secteurs. Le coût élevé des violations dans le secteur de la santé reflète à la fois le volume de données sensibles impliquées et la complexité des exigences de conformité. Lorsque les violations impliquent une dé-identification inadéquate des données de recherche partagées — comme c'est le cas dans 50 % des cas de violation de données de santé — la combinaison d'une détection inadéquate des identifiants de l'UE et de données de recherche partagées crée un risque systématique.
Un fournisseur de logiciels RH paneuropéen traitant des documents d'intégration pour des clients dans 18 pays de l'UE avec un outil PII construit aux États-Unis ne détecte pas 14 des 18 identifiants nationaux des pays. L'écart est systématique : chaque document traité par cet outil contenant un Steuer-ID, NIR, Personnummer, Fodselsnummer, ou autre identifiant spécifique à l'UE laisse cet identifiant exposé.
Exigences de couverture complète de l'UE
La couverture minimale de l'UE pour la conformité au RGPD nécessite :
DACH (Allemagne, Autriche, Suisse) : Steuer-ID allemande et Reisepass ; numéro de sécurité sociale autrichien ; AHV-Nr suisse (13 chiffres avec chiffre de contrôle)
France : NIR (numéro de sécurité sociale à 15 chiffres), Carte Vitale, SIRET (14 chiffres), SIREN (9 chiffres)
Royaume-Uni (équivalent RGPD post-Brexit) : Numéro NHS (10 chiffres), numéro d'assurance nationale (format AA-NN-NN-NN-A), UTR (10 chiffres)
Nordique : Personnummer suédois (YYMMDD-XXXX), Fodselsnummer norvégien (11 chiffres), Henkilotunnus finlandais (DDMMYY-XXXX), CPR danois (DDMMYY-XXXX)
Sud de l'UE : DNI/NIE espagnol, Codice Fiscale italien (16 caractères alphanumériques), PESEL polonais (11 chiffres), Rodne Cislo tchèque
Les organisations qui remplacent les outils construits aux États-Unis par une couverture complète de l'UE découvrent généralement que leur dé-identification précédente atteignait 30 à 40 % de couverture des identifiants de l'UE — laissant la majorité des ID nationaux européens dans leurs ensembles de données "dé-identifiés".
Sources :