Retour au blogGDPR & Conformité

Datatilsynet Danemark : Validation du Modulus-11 du Numéro CPR et Exigences GDPR de la Santé Danoise

67 % des outils NLP manquent la validation du modulus-11 du numéro CPR danois. 14 actions d'application de la loi de Datatilsynet dans le secteur de la santé en 2024. L'utilisation secondaire des données de santé nécessite des procédures de validation d'anonymisation documentées.

March 7, 20267 min de lecture
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

L'Autorité danoise de protection des données, Datatilsynet, a rendu 31 décisions d'application du GDPR en 2024, dont 14 impliquant spécifiquement des systèmes de données de santé — une concentration qui reflète les enjeux élevés de l'infrastructure nationale complète de données de santé du Danemark et les échecs techniques qui exposent à plusieurs reprises les données des patients.

Numéro CPR : L'Exigence du Modulus-11

Le numéro CPR (Det Centrale Personregister-nummer) — 10 chiffres, format DDMMYY-XXXX — encode la date de naissance (chiffres 1-6) et un numéro séquentiel avec un chiffre de contrôle (chiffres 7-10). Le dernier chiffre est validé en utilisant l'arithmétique du modulus-11 :

Vérification du modulus-11 : multiplier les chiffres 1-9 par des poids (4,3,2,7,6,5,4,3,2), faire la somme, prendre le modulo 11. Si le résultat est 0, le chiffre de contrôle = 0. Si le résultat est 1, le CPR est invalide (aucun chiffre de contrôle valide n'existe pour ce préfixe). Sinon, le chiffre de contrôle = 11 moins le résultat.

Cela crée la propriété importante que certains modèles DDMMYY-XXXX ne peuvent jamais être des numéros CPR valides (ceux où le calcul du modulo-11 produit 1). Les outils qui effectuent une correspondance de motifs sur des numéros à 10 chiffres formatés comme DDMMYY-XXXX sans validation du modulus-11 génèrent des faux positifs à partir de chaînes de date, de numéros de référence et de codes de factures.

67 % des outils NLP génériques manquent d'implémentation du modulus-11 pour le CPR (Datatilsynet 2024). Cet échec de détection est la principale insuffisance technique citée dans les actions d'application de la loi de Datatilsynet dans le secteur de la santé.

Écosystème de Recherche sur les Données de Santé au Danemark

Les registres de santé du Danemark — parmi les ensembles de données de santé longitudinales les plus complets au monde — sont liés par le numéro CPR. Le CPR permet aux chercheurs de lier :

  • Dossiers de sortie d'hôpital (depuis 1977)
  • Base de données des prescriptions (depuis 1995)
  • Registre du cancer (depuis 1943)
  • Registre des causes de décès (depuis 1970)
  • Données de diagnostic des soins primaires (depuis 1990)

Cette capacité de liaison rend la recherche en santé danoise de classe mondiale mais crée un risque de ré-identification que Datatilsynet prend au sérieux : même les ensembles de données "dé-identifiés" qui conservent des attributs liés au CPR (âge, sexe, diagnostic, année) peuvent être ré-identifiés en combinaison avec d'autres ensembles de données.

Les directives de Datatilsynet de 2024 sur l'utilisation secondaire des données de santé exigent que les organisations utilisant ces registres démontrent :

Documentation technique d'anonymisation : Pas une déclaration de politique, mais une documentation technique montrant exactement quels identifiants ont été supprimés, quels quasi-identifiants ont été généralisés, et quel niveau de k-anonymité a été atteint dans l'ensemble de données de sortie.

Validation par des tiers pour les ensembles de données de recherche : Pour les ensembles de données de recherche comportant plus de 5 000 individus, Datatilsynet recommande un examen technique indépendant des procédures d'anonymisation.

Minimisation des données : La portée de l'ensemble de données de recherche doit correspondre à la question de recherche documentée. Datatilsynet a trouvé plusieurs cas où les chercheurs ont utilisé des registres nationaux complets alors qu'un échantillon aléatoire ou un ensemble de données géographiquement limité aurait servi l'objectif de recherche.

Conclusions Spécifiques sur l'Application de la Loi dans le Secteur de la Santé

Les 14 décisions d'application de la loi de Datatilsynet dans le secteur de la santé en 2024 documentent des échecs techniques récurrents :

Modèle de cas 1 : L'hôpital partage un ensemble de données de patients dé-identifiés avec un partenaire de recherche académique pour l'entraînement de l'IA. L'ensemble de données contient des composants de date de naissance CPR, des codes de diagnostic et des dates de traitement. Datatilsynet constate que la combinaison permet la ré-identification des patients atteints de maladies rares (problème de petit dénominateur — des diagnostics inhabituels restreignent considérablement l'identification).

Modèle de cas 2 : Une startup de technologie de la santé traite des données de patients danois via une API d'IA basée aux États-Unis pour le soutien à la documentation clinique. Les numéros CPR dans les notes médicales sont transmis à des serveurs américains sans mécanisme de transfert adéquat et sans détection et suppression préalable du CPR.

Modèle de cas 3 : Une compagnie d'assurance traite des données de certificats médicaux pour des demandes d'invalidité. Les numéros CPR dans les certificats PDF numérisés ne sont pas détectés par le pipeline OCR-plus-extraction de la société (l'OCR convertit l'image en texte ; le texte est traité mais sans validation du CPR, de nombreux numéros CPR sont manqués dans la sortie OCR en raison d'artefacts de formatage).

Le mode d'échec OCR-plus-extraction est particulièrement courant dans les contextes de santé où les documents sont reçus sous forme d'images numérisées. La détection du CPR doit fonctionner sur le texte traité par OCR, ce qui introduit souvent des incohérences de formatage (espaces insérés au milieu du numéro, erreurs de position de tiret) qui brisent la correspondance de motifs simples.

Pour la conformité au GDPR dans le secteur de la santé danoise : la détection du CPR avec validation du modulus-11 dans le texte propre et la sortie traitée par OCR, NER en langue danoise (spaCy da_core_news), et documentation technique d'anonymisation répondant aux normes d'utilisation secondaire de Datatilsynet de 2024 sont les exigences minimales.

Sources :

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.