Le problème des outils PII centrés sur les États-Unis
La plupart des outils de détection PII ont été construits aux États-Unis pour des formats de données américains. Le numéro de sécurité sociale — 9 chiffres au format AAA-BB-CCCC, avec des numéros de zone, des numéros de groupe et des numéros de série documentés — était l'objectif principal de conception. Les outils construits autour de la détection des SSN détectent de manière fiable les SSN. Ils peuvent également détecter des numéros de téléphone, des adresses e-mail et des formats de permis de conduire américains. Ils manquent systématiquement les formats d'identifiant utilisés dans tous les autres pays.
Le RGPD ne reconnaît pas le centrage sur les États-Unis comme une exemption de conformité. Un Steuer-ID allemand (Steuerliche Identifikationsnummer) est un numéro d'identification fiscale à 11 chiffres délivré par le Bundeszentralamt für Steuern, avec un algorithme de somme de contrôle spécifique validé par un chiffre de contrôle. Il identifie les résidents allemands aussi personnellement qu'un SSN identifie les Américains. L'article 4 du RGPD définit les données personnelles comme "toute information se rapportant à une personne physique identifiée ou identifiable" — un Steuer-ID est une donnée personnelle au sens du RGPD, peu importe si votre outil PII connaît le format.
Des amendes RGPD ont été infligées pour exposition de PII spécifique à un pays de l'UE dans des systèmes de données qui ont traité les données des résidents de l'UE en utilisant des outils configurés uniquement pour des formats américains. L'écart de conformité n'est pas théorique — il a produit des actions d'application.
Le paysage des identifiants européens
L'ampleur de l'écart de couverture des identifiants européens :
Allemagne : Steuer-ID (11 chiffres, somme de contrôle), Sozialversicherungsnummer (12 chiffres, format structurel), Reisepass (passeport à 10 chiffres avec des codes d'autorité d'émission spécifiques)
France : NIR/Numéro de Sécurité Sociale (15 chiffres codant le sexe [1], l'année de naissance [2], le mois de naissance [2], le département [2], la commune [3], le numéro d'enregistrement [3], clé de contrôle [2]), Carte Vitale (carte de 15 chiffres NIR), SIRET (identifiant d'entreprise à 14 chiffres), SIREN (9 chiffres)
Suède : Personnummer (10 chiffres, format YYMMDD-XXXX avec les deux derniers chiffres identifiant le comté de naissance dans les anciens numéros), Samordningsnummer (numéro de coordination pour les non-résidents, format similaire avec jour + 60)
Norvège : Fodselsnummer (11 chiffres, format DDMMYYNNNKK avec le sexe dans les chiffres du milieu), D-nummer (numéro de coordination, jour + 40)
Brésil : CPF (Cadastro de Pessoas Fisicas, 11 chiffres avec deux chiffres de contrôle), CNPJ (identifiant d'entreprise à 14 chiffres)
Inde : Aadhaar (identité biométrique à 12 chiffres, avec chiffre de contrôle par algorithme de Verhoeff), PAN (alphanumérique de 10 caractères pour l'impôt sur le revenu)
Émirats : Emirates ID (15 chiffres : 784-année de naissance-séquence-vérification)
Un responsable RH mondial traitant des données de paie pour des employés dans 12 pays a besoin d'un outil qui détecte tous les formats de carte d'identité nationale des 12 pays en une seule fois — sans configurer 12 outils spécifiques à chaque pays ou maintenir 12 bibliothèques regex séparées.
L'architecture des types d'entités 285+
La bibliothèque de types d'entités 285+ couvre l'ensemble des identifiants des États membres de l'UE, les principaux identifiants APAC (Aadhaar, PAN, CPF, CNPJ, Emirates ID, ID de citoyen thaïlandais) et les identifiants américains (SSN, EIN, permis de conduire par état) dans un seul moteur de détection. La bibliothèque est maintenue et mise à jour à mesure que les formats spécifiques à chaque pays évoluent.
Sources :