Retour au blogGDPR & Conformité

Pourquoi votre outil de détection de PII n'est...

Un numéro de Steuer-ID allemand (11 chiffres avec une somme de contrôle) est structurellement différent d'un SSN américain.

March 20, 20268 min de lecture
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Le GDPR n'a pas de préférence linguistique

Le Règlement général sur la protection des données s'applique également aux données personnelles en allemand, français, polonais, suédois, espagnol, italien et toutes les autres langues traitées par les organisations soumises au Règlement. Un identifiant manqué dans les données clients allemandes crée la même exposition réglementaire qu'un identifiant manqué dans les données clients anglaises. Le GDPR ne fait pas de distinction par langue.

La plupart des outils de détection de PII le font.

Les outils de détection de PII commerciaux et open-source dominants ont été construits et évalués principalement sur du texte en anglais. Leurs reconnaisseurs d'entités reflètent cela : numéros de sécurité sociale américains, permis de conduire américains, formats de passeport américains et identifiants universels courants (adresses e-mail, numéros de téléphone au format NANP, numéros de carte de crédit). Les reconnaisseurs pour les identifiants nationaux non anglais — lorsqu'ils existent — sont souvent moins précis, moins maintenus et plus susceptibles de produire des faux négatifs.

Pour les entreprises opérant dans les États membres de l'UE, cela crée un écart de conformité systématique : l'outil signale que des PII ont été détectées et supprimées, mais les identifiants non anglais qui représentent la plus grande exposition au GDPR dans certaines juridictions restent dans les données.

La différence structurelle entre les identifiants nationaux

L'écart entre les outils centrés sur l'anglais et les outils véritablement multilingues n'est pas une question d'ajout de plus de motifs regex. Les formats d'identifiants nationaux à travers les États membres de l'UE sont structurellement distincts de manière à nécessiter des connaissances spécifiques à la juridiction pour être détectés correctement.

Numéro d'identification fiscale allemand (Steuer-ID) : identifiant fiscal à 11 chiffres avec un algorithme de somme de contrôle spécifique basé sur la variante de la formule de Luhn. Un regex générique pour les SSN ne correspondra pas à ce format. Un regex qui correspond à n'importe quel nombre à 11 chiffres produira d'énormes taux de faux positifs dans les documents financiers allemands.

NIR français (Numéro d'inscription au répertoire) : identifiant à 15 chiffres incorporant le sexe du titulaire, l'année de naissance, le mois de naissance, le code du département ou du pays de naissance, le numéro d'ordre de naissance et une clé de contrôle à 2 chiffres. La détection nécessite de comprendre la structure et de valider la clé de contrôle.

Personnummer suédois : identifiant à 10 chiffres (parfois avec un indicateur de siècle le rendant à 12 chiffres) avec un chiffre de contrôle de Luhn. Le format varie selon l'âge : les individus nés avant 1990 utilisent un séparateur + au lieu de -, changeant le format qui doit être détecté.

PESEL polonais : identifiant à 11 chiffres encodant la date de naissance, le sexe et un chiffre de contrôle basé sur un algorithme de somme pondérée. La détection correcte nécessite à la fois une correspondance de format et une validation de la somme de contrôle.

Ce ne sont pas des variations de format sur un motif commun. Ce sont des identifiants structurellement distincts avec des longueurs différentes, des algorithmes de validation différents et des schémas d'encodage positionnels différents. Un modèle NER entraîné en anglais rencontrant un NIR français dans un texte ne le reconnaîtra pas comme un identifiant national — il l'ignorera soit, soit, s'il correspond à un autre motif, le classera mal.

La conséquence pratique de la conformité

Pour un responsable de la conformité dans un BPO européen traitant simultanément des données de service client provenant d'Allemagne, de France, de Pologne et des Pays-Bas, la conséquence pratique est un écart systématique de détection dans les enregistrements clients non anglais.

L'outil du responsable de la conformité signale une anonymisation réussie des PII. Les données anonymisées contiennent toujours des Steuer-IDs dans les enregistrements allemands, des numéros NIR dans les enregistrements français et des numéros PESEL dans les enregistrements polonais — car les reconnaisseurs de formats de l'outil sont soit absents, soit insuffisamment précis.

Lorsque l'ensemble de données anonymisées est ensuite utilisé pour des analyses, des tests ou partagé avec un partenaire de recherche, les données "anonymisées" contiennent toujours des données d'identifiant national ré-identifiables. La violation du GDPR n'est pas visible dans les journaux de sortie de l'outil. Elle devient visible lorsqu'une demande d'accès d'un sujet de données, un audit d'autorité de surveillance ou une violation de données révèlent que des identifiants non anglais n'ont pas été supprimés.

Des recherches comparant des approches hybrides multilingues de détection de PII contre des outils monolingues centrés sur l'anglais ont révélé que les approches hybrides atteignent des scores F1 de 0,60 à 0,83 à travers les localités européennes — comparé à une performance proche de zéro des outils uniquement en anglais appliqués à des formats d'identifiants non anglais.

Ce que nécessite une couverture complète

Une véritable détection multilingue de PII pour la conformité au GDPR de l'UE nécessite trois couches architecturales travaillant en combinaison :

Modèles spaCy natifs à la langue fournissent une compréhension sémantique des noms, des organisations et des lieux dans la langue du texte. Un modèle spaCy entraîné sur du texte allemand comprend que "Müller" est un nom de famille courant dans le contexte allemand — pas seulement un mot capitalisé. Des modèles existent pour 25 langues de l'UE à forte ressource.

Modèles NLP Stanza étendent la couverture à des langues supplémentaires non couvertes par spaCy au même niveau de précision.

Modèles de transformateur cross-lingual (XLM-RoBERTa) gèrent l'ambiguïté interlangue que la simple correspondance de motifs ne peut pas traiter — reconnaissant qu'un nom apparaissant dans une phrase française est un nom de personne même si le moteur de détection n'a pas été spécifiquement entraîné sur ce nom.

Regex avec validation spécifique à la juridiction couvre les identifiants nationaux structurés — Steuer-ID, NIR, PESEL, Personnummer — avec validation de la somme de contrôle qui élimine les faux positifs.

Pour le responsable de la conformité dont l'outil manque actuellement d'identifiants non anglais : l'écart est structurel, pas de configuration. Ajouter des listes de mots ou étendre la couverture regex offre une amélioration marginale. La conformité complète au GDPR de l'UE pour les données multilingues nécessite un outil construit avec une couverture des identifiants de l'UE comme exigence de conception, et non comme une réflexion tardive.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.