Dänische CPR-Nummern: DSGVO-Compliance-Leitfaden
Aktualisiert für 2026
Die dänische Datenschutzbehörde Datatilsynet hat im Jahr 2024 31 DSGVO-Entscheidungen getroffen. Vierzehn davon betrafen Gesundheitsdaten. Dieser hohe Anteil spiegelt zwei Tatsachen wider: Dänemark betreibt ein großes nationales Gesundheitssystem, und technische Lücken in diesem System setzen Patientendaten immer wieder frei.
Die Prüfziffer-Regel für CPR-Nummern
Eine CPR-Nummer ist der dänische persönliche Ausweis. Sie besteht aus 10 Ziffern im Format TTMMJJ-XXXX. Die ersten sechs Ziffern sind das Geburtsdatum. Die letzten vier bestehen aus einer laufenden Nummer und einer Prüfziffer.
Die Prüfziffer verwendet eine Modulo-11-Regel:
- Nimm die Ziffern 1 bis 9.
- Weise jeder ein Gewicht zu: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Multipliziere jede Ziffer mit ihrem Gewicht. Addiere alle Ergebnisse.
- Dividiere durch 11. Notiere den Rest.
- Rest 0 → Prüfziffer ist 0.
- Rest 1 → die Nummer ist ungültig.
- Rest 2–10 → Prüfziffer ist 11 minus dem Rest.
Diese Regel ist wichtig für jedes Tool, das Text nach CPR-Nummern durchsucht. Manche TTMMJJ-XXXX-Zeichenfolgen können nie gültig sein. Tools, die diesen Schritt überspringen, markieren Datumsangaben, Rechnungscodes und Referenznummern als echte IDs.
Die Überprüfung der Behörde aus dem Jahr 2024 ergab, dass 67 % der generischen NLP-Tools diese Prüfung nicht durchführen. Diese Lücke ist der häufigste technische Mangel in den Gesundheitsfällen der Behörde.
Dänemarks fünf Gesundheitsregister
Dänemark verknüpft Gesundheitsdaten über fünf nationale Register. Der persönliche Ausweis verbindet alle fünf.
- Krankenhausentlassungsdaten (ab 1977)
- Verschreibungsdaten (ab 1995)
- Krebsregister (ab 1943)
- Todesursachenregister (ab 1970)
- Primärversorgungsdiagnosen (ab 1990)
Das macht die dänische Gesundheitsforschung sehr leistungsstark. Es schafft aber auch ein Risiko. Die bloße Entfernung des persönlichen Ausweises reicht nicht aus. Ein Datensatz, der noch Alter, Geschlecht, Diagnose und Jahr enthält, kann Personen wieder identifizierbar machen — besonders bei seltenen Erkrankungen.
Datatilsynets Leitfaden 2024 zur sekundären Nutzung von Gesundheitsdaten legt drei Anforderungen fest.
Technische Anonymisierungsdokumentation: Listen Sie auf, welche Felder entfernt wurden, welche verallgemeinert wurden und welche Gruppengröße der Output erreicht. Eine Richtlinienaussage genügt diesem Standard nicht.
Externe Prüfung bei großen Datensätzen: Bei Datensätzen mit mehr als 5.000 Personen empfiehlt die Behörde eine unabhängige technische Prüfung der De-Identifikationsschritte.
Datensparsamkeit: Der Datensatz muss zur angegebenen Forschungsfrage passen. Die Behörde fand Fälle, in denen Teams vollständige nationale Register nutzten, obwohl eine kleinere Stichprobe ausgereicht hätte.
Siehe unseren Leitfaden zur EU-Personalausweis-Erkennung für Prüfzifferregeln bei anderen europäischen ID-Formaten.
Was die 2024er Fälle zeigen
Die 14 Gesundheitsfälle haben drei häufige Fehlertypen gemeinsam.
Datenweitergabe für Forschung: Ein Krankenhaus sendet einen de-identifizierten Patientendatensatz an einen akademischen Partner für KI-Training. Der Datensatz enthält Geburtsdatumsangaben, Diagnosecodes und Behandlungsdaten. Die Behörde stellt fest, dass diese Kombination Patienten mit seltenen Erkrankungen wieder identifizierbar macht.
Drittanbieter-KI-Dienste: Ein Healthtech-Unternehmen sendet Patientenakten an einen US-basierten KI-Dienst für die Dokumentation klinischer Aufzeichnungen. Persönliche Ausweise in diesen Notizen werden nicht zuerst entfernt. Kein gültiger Übertragungsmechanismus ist vorhanden.
OCR-Pipeline-Lücken: Ein Versicherer verarbeitet eingescannte PDF-Formulare für Behinderungsansprüche. Das OCR-Tool wandelt Bilder in Text um. Es führt jedoch keine Prüfziffertests am Ergebnis durch. Viele IDs werden übersehen.
OCR fügt oft Leerzeichen mitten in Nummern ein oder verschiebt Bindestriche. Einfaches Musterabgleichen scheitert an solchen Ausgaben. Die Erkennung muss auf OCR-Text funktionieren, nicht nur auf saubere Eingaben. Siehe unseren OCR-Gesundheits-Erkennungsleitfaden für Schritte zur Verarbeitung gescannter Dokumente.
Drei technische Mindestanforderungen
Diese drei Elemente bilden die Grundlage für die dänische Gesundheits-DSGVO-Compliance.
Prüfziffertests auf allen Texten: Führe die vollständige Modulo-11-Prüfung für jeden Kandidaten-String durch. Wende sie auf saubere Texte und OCR-Ausgaben gleichermaßen an.
Dänischsprachige Namenserkennung: Verwende ein auf dänische Texte trainiertes Modell. Das spaCy-Modell da_core_news ist eine Option. Ein generisches englisches Modell übersieht dänische Namen und Organisationsnamen.
De-Identifikations-Dokumentation: Halte fest, was entfernt wurde, was zusammengefasst wurde und die Gruppengröße des Outputs. Die Behörde verlangt dies in technischer Form, nicht als Richtlinienerklärung.
Für Daten zu den Kosten von Gesundheitsdatenpannen, siehe unsere Analyse der Kosten von Gesundheitspannen.