L'Autoritatea Națională de Supraveghere a Prelucrării Datelor cu Caracter Personal (ANSPDCP) de Roumanie a publié une évaluation technique 2024 avec une constatation frappante : 78 % des outils PII déployés dans les opérations d'externalisation roumaines échouent à détecter le Cod Numeric Personal (CNP) avec une validation appropriée de la somme de contrôle. Pour un pays traitant les données des citoyens de l'UE à grande échelle pour des clients d'Europe de l'Ouest, cela crée une exposition systémique à la conformité.
CNP : L'identifiant personnel le plus riche de Roumanie
Le CNP est un numéro d'identification national à 13 chiffres :
- Chiffre 1 : Code de genre et de siècle (1=masculin 1900-1999, 2=féminin 1900-1999, 5=masculin 2000+, 6=féminin 2000+, 7=masculin résident étranger, 8=féminin résident étranger, 9=autre résident)
- Chiffres 2-3 : Derniers deux chiffres de l'année de naissance
- Chiffres 4-5 : Mois de naissance (01-12)
- Chiffres 6-7 : Jour de naissance (01-31)
- Chiffres 8-9 : Code de comté (01-52, correspondant aux 41 comtés de Roumanie + secteurs de Bucarest)
- Chiffres 10-12 : Numéro de naissance séquentiel dans le jour et le comté
- Chiffre 13 : Chiffre de contrôle (somme pondérée modulo 11)
Le CNP encode le genre, la date de naissance (complète), le comté de naissance et le statut de citoyenneté - ce qui en fait l'un des identifiants nationaux les plus riches en informations d'Europe. L'encodage du genre dans le chiffre 1 fait du CNP un indicateur de catégorie spéciale de facto en vertu de l'article 9 du RGPD (révélant le sexe biologique), nécessitant une protection accrue.
Validation de la somme de contrôle : L'algorithme du chiffre de contrôle multiplie les 12 premiers chiffres par des poids (2,7,9,1,4,6,3,5,8,2,7,9), additionne les produits, prend le modulo 11. Si le résultat est 10, le chiffre de contrôle est 1. Si le résultat est 11, le CNP est invalide. Sinon, le chiffre de contrôle est égal au résultat.
78 % des outils échouent à cette validation - générant à la fois des faux positifs (tout numéro à 13 chiffres est signalé) et des faux négatifs (des numéros de CNP corrompus passent le filtrage par motif mais échouent aux sommes de contrôle et sont donc manqués comme des données potentiellement invalides nécessitant une révision).
NER en langue roumaine : La couche manquante
Au-delà du CNP, le traitement en langue roumaine crée des défis spécifiques en matière de NER :
Diacritiques roumains : Le roumain utilise les caractères ș (s-cedille), ț (t-cedille), ă, â et î. Les outils formés sur des textes non roumains peuvent échouer à reconnaître les noms roumains contenant ces caractères. Les problèmes d'encodage (UTF-8 vs. Latin-2) dans les documents roumains hérités créent des défis supplémentaires de détection.
Formats d'adresse roumains : "Strada" (abrégé "Str."), "Bulevardul" (abrégé "Bd."), "Aleea" (abrégé "Al."), "Calea" (abrégé "Cal.") pour les types de rue. Les localités roumaines comprennent à la fois des villes (municipii) et des communes (comune) avec des conventions de nommage différentes de celles des formats d'adresse d'Europe de l'Ouest.
Modèles de noms roumains : Les noms roumains suivent des conventions patronymiques et grammaticales spécifiques. Le même nom apparaît dans différents cas grammaticaux selon son rôle grammatical dans la phrase (nominatif, génitif-datif). Les modèles NER doivent gérer la variation des cas pour identifier correctement les noms roumains dans différents contextes de documents.
Modèle d'application de l'ANSPDCP
Les cas d'application de l'ANSPDCP suivent un modèle cohérent qui révèle les défaillances techniques spécifiques conduisant à des violations :
Cas de violation de données BPO : Les organisations de centres d'appels ou de support informatique subissent une violation de données. L'enquête révèle que des fichiers partagés contenant des numéros CNP d'employés roumains et des données personnelles de clients de l'UE étaient stockés sans chiffrement adéquat. L'évaluation de l'étendue de la violation est entravée par un journal inadéquat - l'organisation ne peut pas déterminer exactement quels enregistrements ont été accédés.
Exposition des données de santé : Les dossiers des patients contenant des numéros CNP, des numéros de carte de santé et des informations de diagnostic sont partagés par inadvertance avec des parties non autorisées (envoyés par e-mail au mauvais destinataire, publiés dans un dossier cloud incorrect). Les numéros CNP n'ont pas été détectés ou pseudonymisés avant le partage parce que l'outil PII de l'organisation n'incluait pas le support des identifiants roumains.
Transfert transfrontalier sans garanties : Une organisation BPO roumaine transfère des données de clients de l'UE (y compris des dossiers liés au CNP) à un sous-traitant indien pour saisie ou traitement de données, sans évaluation d'impact sur le transfert adéquate et sans clauses contractuelles types. Les numéros CNP dans les fichiers transférés créent une exposition au transfert de catégorie spéciale du RGPD.
Pour la conformité au RGPD roumain : la détection du CNP avec validation de la somme de contrôle modulo-11, le NER en langue roumaine avec traitement conscient des diacritiques, et la détection de la carte d'identité nationale roumaine sont la base technique que l'historique d'application de l'ANSPDCP montre comme étant requise.
Sources :