Données personnelles mondiales : SSN, CPF, Aadhaar et plus
Le problème des outils PII centrés sur les États-Unis
La plupart des outils PII ont été développés aux États-Unis. Ils ciblent les formats de données américains. Le numéro de sécurité sociale américain comporte neuf chiffres au format AAA-BB-CCCC. Ses segments de zone, de groupe et de série suivent des règles documentées. Les outils axés sur les États-Unis le détectent bien. Ils détectent aussi les numéros de téléphone, adresses e-mail et permis de conduire américains. Ils manquent chaque identifiant national utilisé hors des États-Unis.
Le RGPD n'autorise pas d'exemption pour les systèmes US-only. Prenons le Steuer-ID allemand. C'est un identifiant fiscal à 11 chiffres. Le Bundeszentralamt für Steuern le délivre. Son dernier chiffre est une somme de contrôle. Il identifie un résident allemand tout comme un SSN identifie un Américain. L'article 4 du RGPD couvre « toute information se rapportant à une personne physique identifiée ou identifiable. » Un Steuer-ID répond à cette définition. C'est une donnée personnelle. Cela est vrai que votre outil connaisse ou non ce format.
Des amendes RGPD ont été infligées pour l'exposition de données personnelles spécifiques à l'UE dans des systèmes n'utilisant que des outils américains. L'écart de conformité est réel. Des mesures coercitives ont suivi. Consultez notre guide de conformité RGPD pour plus de contexte.
Le paysage des identifiants européens
L'écart de couverture est important. Voici un aperçu par pays.
Allemagne : Steuer-ID — 11 chiffres, validé par somme de contrôle. Sozialversicherungsnummer — 12 champs, structuré. Reisepass — 10 caractères avec codes d'autorité.
France : Le NIR est l'identifiant national de sécurité sociale. Il comporte 15 chiffres. Ils encodent le sexe, l'année de naissance, le mois de naissance, le département, la commune et une clé de contrôle. Le SIRET a 14 chiffres. Le SIREN en a neuf.
Suède : Le Personnummer utilise le format AAMMJJ-XXXX. Le Samordningsnummer couvre les non-résidents. La valeur du jour est décalée de 60.
Norvège : Le Fødselsnummer comporte 11 valeurs au format JJMMAAXXXCC. Le sexe est encodé dans le groupe central. Le D-nummer décale la valeur du jour de 40.
Brésil : Le CPF — Cadastro de Pessoas Físicas — comporte 11 chiffres avec deux valeurs de contrôle. Le CNPJ est l'identifiant d'entreprise à 14 chiffres.
Inde : L'Aadhaar est un identifiant biométrique à 12 chiffres. Il utilise une vérification Verhoeff. Le PAN est un identifiant fiscal à 10 chiffres mêlant lettres et chiffres.
Émirats arabes unis : L'Emirates ID comporte 15 chiffres au format 784-année de naissance-séquence-contrôle.
Une équipe RH mondiale couvrant 12 pays a besoin d'un seul outil. Il doit traiter les 12 formats d'identifiants nationaux en un seul passage. Maintenir des bibliothèques regex séparées par pays n'est pas viable.
L'architecture des 285+ types d'entités
La bibliothèque de 285+ types d'entités couvre tous les formats des États membres de l'UE. Elle couvre aussi les principaux identifiants APAC. Ceux-ci incluent Aadhaar, PAN, CPF, CNPJ, Emirates ID et l'identifiant thaïlandais. Les formats américains — SSN, EIN, permis de conduire par État — sont également inclus. Un seul moteur les gère tous. La bibliothèque est mise à jour au fur et à mesure que les formats évoluent.
C'est l'écart que la plupart des outils laissent ouvert. Consultez la référence des entités pour voir ce qui est couvert. Pour les tarifs API par volume, visitez tarification.