Dänische CPR-Nummern: DSGVO-Compliance-Leitfaden

Aktualisiert für 2026

Die dänische Datenschutzbehörde Datatilsynet hat im Jahr 2024 31 DSGVO-Entscheidungen getroffen. Vierzehn davon betrafen Gesundheitsdaten. Dieser hohe Anteil spiegelt zwei Tatsachen wider: Dänemark betreibt ein großes nationales Gesundheitssystem, und technische Lücken in diesem System setzen Patientendaten immer wieder frei.

Die Prüfziffer-Regel für CPR-Nummern

Eine CPR-Nummer ist der dänische persönliche Ausweis. Sie besteht aus 10 Ziffern im Format TTMMJJ-XXXX. Die ersten sechs Ziffern sind das Geburtsdatum. Die letzten vier bestehen aus einer laufenden Nummer und einer Prüfziffer.

Die Prüfziffer verwendet eine Modulo-11-Regel:

Nimm die Ziffern 1 bis 9.
Weise jeder ein Gewicht zu: 4, 3, 2, 7, 6, 5, 4, 3, 2.
Multipliziere jede Ziffer mit ihrem Gewicht. Addiere alle Ergebnisse.
Dividiere durch 11. Notiere den Rest.
Rest 0 → Prüfziffer ist 0.
Rest 1 → die Nummer ist ungültig.
Rest 2–10 → Prüfziffer ist 11 minus dem Rest.

Diese Regel ist wichtig für jedes Tool, das Text nach CPR-Nummern durchsucht. Manche TTMMJJ-XXXX-Zeichenfolgen können nie gültig sein. Tools, die diesen Schritt überspringen, markieren Datumsangaben, Rechnungscodes und Referenznummern als echte IDs.

Die Überprüfung der Behörde aus dem Jahr 2024 ergab, dass 67 % der generischen NLP-Tools diese Prüfung nicht durchführen. Diese Lücke ist der häufigste technische Mangel in den Gesundheitsfällen der Behörde.

Dänemarks fünf Gesundheitsregister

Dänemark verknüpft Gesundheitsdaten über fünf nationale Register. Der persönliche Ausweis verbindet alle fünf.

Krankenhausentlassungsdaten (ab 1977)
Verschreibungsdaten (ab 1995)
Krebsregister (ab 1943)
Todesursachenregister (ab 1970)
Primärversorgungsdiagnosen (ab 1990)

Das macht die dänische Gesundheitsforschung sehr leistungsstark. Es schafft aber auch ein Risiko. Die bloße Entfernung des persönlichen Ausweises reicht nicht aus. Ein Datensatz, der noch Alter, Geschlecht, Diagnose und Jahr enthält, kann Personen wieder identifizierbar machen — besonders bei seltenen Erkrankungen.

Datatilsynets Leitfaden 2024 zur sekundären Nutzung von Gesundheitsdaten legt drei Anforderungen fest.

Technische Anonymisierungsdokumentation: Listen Sie auf, welche Felder entfernt wurden, welche verallgemeinert wurden und welche Gruppengröße der Output erreicht. Eine Richtlinienaussage genügt diesem Standard nicht.

Externe Prüfung bei großen Datensätzen: Bei Datensätzen mit mehr als 5.000 Personen empfiehlt die Behörde eine unabhängige technische Prüfung der De-Identifikationsschritte.

Datensparsamkeit: Der Datensatz muss zur angegebenen Forschungsfrage passen. Die Behörde fand Fälle, in denen Teams vollständige nationale Register nutzten, obwohl eine kleinere Stichprobe ausgereicht hätte.

Siehe unseren Leitfaden zur EU-Personalausweis-Erkennung für Prüfzifferregeln bei anderen europäischen ID-Formaten.

Was die 2024er Fälle zeigen

Die 14 Gesundheitsfälle haben drei häufige Fehlertypen gemeinsam.

Datenweitergabe für Forschung: Ein Krankenhaus sendet einen de-identifizierten Patientendatensatz an einen akademischen Partner für KI-Training. Der Datensatz enthält Geburtsdatumsangaben, Diagnosecodes und Behandlungsdaten. Die Behörde stellt fest, dass diese Kombination Patienten mit seltenen Erkrankungen wieder identifizierbar macht.

Drittanbieter-KI-Dienste: Ein Healthtech-Unternehmen sendet Patientenakten an einen US-basierten KI-Dienst für die Dokumentation klinischer Aufzeichnungen. Persönliche Ausweise in diesen Notizen werden nicht zuerst entfernt. Kein gültiger Übertragungsmechanismus ist vorhanden.

OCR-Pipeline-Lücken: Ein Versicherer verarbeitet eingescannte PDF-Formulare für Behinderungsansprüche. Das OCR-Tool wandelt Bilder in Text um. Es führt jedoch keine Prüfziffertests am Ergebnis durch. Viele IDs werden übersehen.

OCR fügt oft Leerzeichen mitten in Nummern ein oder verschiebt Bindestriche. Einfaches Musterabgleichen scheitert an solchen Ausgaben. Die Erkennung muss auf OCR-Text funktionieren, nicht nur auf saubere Eingaben. Siehe unseren OCR-Gesundheits-Erkennungsleitfaden für Schritte zur Verarbeitung gescannter Dokumente.

Drei technische Mindestanforderungen

Diese drei Elemente bilden die Grundlage für die dänische Gesundheits-DSGVO-Compliance.

Prüfziffertests auf allen Texten: Führe die vollständige Modulo-11-Prüfung für jeden Kandidaten-String durch. Wende sie auf saubere Texte und OCR-Ausgaben gleichermaßen an.

Dänischsprachige Namenserkennung: Verwende ein auf dänische Texte trainiertes Modell. Das spaCy-Modell da_core_news ist eine Option. Ein generisches englisches Modell übersieht dänische Namen und Organisationsnamen.

De-Identifikations-Dokumentation: Halte fest, was entfernt wurde, was zusammengefasst wurde und die Gruppengröße des Outputs. Die Behörde verlangt dies in technischer Form, nicht als Richtlinienerklärung.

Für Daten zu den Kosten von Gesundheitsdatenpannen, siehe unsere Analyse der Kosten von Gesundheitspannen.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

Kostenlose Testversion starten Funktionen anzeigen

Datatilsynet Dänemark: Validierung der Modulus-11 für...

Dänische CPR-Nummern: DSGVO-Compliance-Leitfaden

Die Prüfziffer-Regel für CPR-Nummern

Dänemarks fünf Gesundheitsregister

Was die 2024er Fälle zeigen

Drei technische Mindestanforderungen

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

Datatilsynet Dänemark: Validierung der Modulus-11 für...

Dänische CPR-Nummern: DSGVO-Compliance-Leitfaden

Die Prüfziffer-Regel für CPR-Nummern

Dänemarks fünf Gesundheitsregister

Was die 2024er Fälle zeigen

Drei technische Mindestanforderungen

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow