Das dänische Datatilsynet gab 2024 31 Durchsetzungsentscheidungen gemäß GDPR bekannt, von denen 14 speziell Gesundheitsdatensysteme betrafen – eine Konzentration, die die hohen Einsätze der umfassenden nationalen Gesundheitsdateninfrastruktur Dänemarks und die technischen Mängel widerspiegelt, die wiederholt Patientendaten gefährden.
CPR-Nummer: Die Modulus-11-Anforderung
Die CPR-Nummer (Det Centrale Personregister-nummer) — 10 Ziffern, Format DDMMYY-XXXX — kodiert das Geburtsdatum (Ziffern 1-6) und eine fortlaufende Nummer mit Prüfziffer (Ziffern 7-10). Die letzte Ziffer wird mit Hilfe der Modulus-11-Arithmetik validiert:
Modulus-11-Prüfung: multiplizieren Sie die Ziffern 1-9 mit Gewichten (4,3,2,7,6,5,4,3,2), summieren, modulo 11 nehmen. Wenn das Ergebnis 0 ist, ist die Prüfziffer = 0. Wenn das Ergebnis 1 ist, ist die CPR ungültig (es existiert keine gültige Prüfziffer für dieses Präfix). Andernfalls ist die Prüfziffer = 11 minus Ergebnis.
Dies schafft die wichtige Eigenschaft, dass einige DDMMYY-XXXX-Muster niemals gültige CPR-Nummern sein können (die, bei denen die Modulus-11-Berechnung 1 ergibt). Werkzeuge, die 10-stellige Zahlen im Format DDMMYY-XXXX ohne Modulus-11-Validierung nach Mustern durchsuchen, erzeugen falsch-positive Ergebnisse aus Datumszeichenfolgen, Referenznummern und Rechnungsnummern.
67 % der allgemeinen NLP-Tools fehlen die Implementierung der CPR-Modulus-11 (Datatilsynet 2024). Dieses Erkennungsversagen ist die am häufigsten angeführte technische Unzulänglichkeit in den Durchsetzungsmaßnahmen von Datatilsynet im Gesundheitswesen.
Dänemarks Gesundheitsdatenforschungsökosystem
Die Gesundheitsregister Dänemarks — unter den vollständigsten longitudinalen Gesundheitsdatensätzen der Welt — sind über die CPR-Nummer verknüpft. Die CPR ermöglicht es Forschern, Folgendes zu verknüpfen:
- Krankenhausentlassungsdaten (seit 1977)
- Rezeptdatenbank (seit 1995)
- Krebsregister (seit 1943)
- Todesursachenregister (seit 1970)
- Primärversorgungsdiagnosedaten (seit 1990)
Diese Verknüpfbarkeit macht die dänische Gesundheitsforschung weltklasse, birgt jedoch ein Risiko der Re-Identifizierung, das Datatilsynet ernst nimmt: Selbst "de-identifizierte" Datensätze, die CPR-verknüpfte Attribute (Alter, Geschlecht, Diagnose, Jahr) beibehalten, können in Kombination mit anderen Datensätzen re-identifiziert werden.
Die Richtlinien von Datatilsynet für die sekundäre Nutzung von Gesundheitsdaten im Jahr 2024 verlangen von Organisationen, die diese Register nutzen:
Technische Anonymisierungsdokumentation: Keine politische Erklärung, sondern technische Dokumentation, die genau zeigt, welche Identifikatoren entfernt wurden, welche Quasi-Identifikatoren verallgemeinert wurden und welches k-Anonymitätsniveau im Ausgabedatensatz erreicht wurde.
Drittvalidierung für Forschungsdatensätze: Für Forschungsdatensätze mit mehr als 5.000 Personen empfiehlt Datatilsynet eine unabhängige technische Überprüfung der Anonymisierungsverfahren.
Datenminimierung: Der Umfang des Forschungsdatensatzes muss der dokumentierten Forschungsfrage entsprechen. Datatilsynet hat mehrere Fälle festgestellt, in denen Forscher vollständige nationale Register verwendeten, während eine Zufallsstichprobe oder ein geografisch begrenzter Datensatz dem Forschungszweck gedient hätte.
Spezifische Durchsetzungsbefunde im Gesundheitswesen
Die 14 Durchsetzungsentscheidungen von Datatilsynet im Gesundheitswesen im Jahr 2024 dokumentieren wiederkehrende technische Mängel:
Fallmuster 1: Krankenhaus teilt de-identifizierten Patientendatensatz mit akademischem Forschungspartner für KI-Training. Der Datensatz enthält CPR-Geburtsdatumkomponenten, Diagnosecodes und Behandlungsdaten. Datatilsynet stellt fest, dass die Kombination die Re-Identifizierung von Patienten mit seltenen Krankheiten ermöglicht (Problem des kleinen Nenners — ungewöhnliche Diagnosen schränken die Identifizierung erheblich ein).
Fallmuster 2: Health-Tech-Startup verarbeitet dänische Patientendaten über eine in den USA ansässige KI-API zur Unterstützung der klinischen Dokumentation. CPR-Nummern in medizinischen Notizen werden ohne angemessenen Übertragungsmechanismus und ohne vorherige CPR-Erkennung und -Entfernung an US-Server übertragen.
Fallmuster 3: Versicherungsgesellschaft verarbeitet Daten von medizinischen Bescheinigungen für Invaliditätsansprüche. CPR-Nummern in gescannten PDF-Zertifikaten werden von der OCR-plus-Extraktionspipeline des Unternehmens nicht erkannt (OCR wandelt Bilder in Text um; der Text wird verarbeitet, aber ohne CPR-Validierung werden viele CPR-Nummern aufgrund von Formatierungsartefakten im OCR-Ausgang übersehen).
Der Fehler im OCR-plus-Extraktionsmodus ist besonders häufig in Gesundheitskontexten, in denen Dokumente als gescannte Bilder empfangen werden. Die CPR-Erkennung muss auf OCR-verarbeiteten Text funktionieren, der oft Formatierungsinkonsistenzen (eingefügte Leerzeichen mitten in der Nummer, Fehler bei der Position der Bindestriche) einführt, die einfaches Muster-Matching stören.
Für die GDPR-Konformität im dänischen Gesundheitswesen: CPR-Erkennung mit Modulus-11-Validierung sowohl in reinem Text als auch in OCR-verarbeitetem Ausgang, dänischsprachige NER (spaCy da_core_news) und technische Anonymisierungsdokumentation, die den Standards für die sekundäre Nutzung von Datatilsynet im Jahr 2024 entspricht, sind die Mindestanforderungen.
Quellen: