By · Last updated 2026-05-18

Zurück zum BlogDSGVO & Compliance

Datatilsynet Dänemark: Validierung der Modulus-11 für...

67 % der NLP-Tools verfehlen die Validierung der Modulus-11 für dänische CPR-Nummern.

May 18, 20267 min Lesezeit
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Das dänische Datatilsynet gab 2024 31 Durchsetzungsentscheidungen gemäß GDPR bekannt, von denen 14 speziell Gesundheitsdatensysteme betrafen – eine Konzentration, die die hohen Einsätze der umfassenden nationalen Gesundheitsdateninfrastruktur Dänemarks und die technischen Mängel widerspiegelt, die wiederholt Patientendaten gefährden.

CPR-Nummer: Die Modulus-11-Anforderung

Die CPR-Nummer (Det Centrale Personregister-nummer) — 10 Ziffern, Format DDMMYY-XXXX — kodiert das Geburtsdatum (Ziffern 1-6) und eine fortlaufende Nummer mit Prüfziffer (Ziffern 7-10). Die letzte Ziffer wird mit Hilfe der Modulus-11-Arithmetik validiert:

Modulus-11-Prüfung: multiplizieren Sie die Ziffern 1-9 mit Gewichten (4,3,2,7,6,5,4,3,2), summieren, modulo 11 nehmen. Wenn das Ergebnis 0 ist, ist die Prüfziffer = 0. Wenn das Ergebnis 1 ist, ist die CPR ungültig (es existiert keine gültige Prüfziffer für dieses Präfix). Andernfalls ist die Prüfziffer = 11 minus Ergebnis.

Dies schafft die wichtige Eigenschaft, dass einige DDMMYY-XXXX-Muster niemals gültige CPR-Nummern sein können (die, bei denen die Modulus-11-Berechnung 1 ergibt). Werkzeuge, die 10-stellige Zahlen im Format DDMMYY-XXXX ohne Modulus-11-Validierung nach Mustern durchsuchen, erzeugen falsch-positive Ergebnisse aus Datumszeichenfolgen, Referenznummern und Rechnungsnummern.

67 % der allgemeinen NLP-Tools fehlen die Implementierung der CPR-Modulus-11 (Datatilsynet 2024). Dieses Erkennungsversagen ist die am häufigsten angeführte technische Unzulänglichkeit in den Durchsetzungsmaßnahmen von Datatilsynet im Gesundheitswesen.

Dänemarks Gesundheitsdatenforschungsökosystem

Die Gesundheitsregister Dänemarks — unter den vollständigsten longitudinalen Gesundheitsdatensätzen der Welt — sind über die CPR-Nummer verknüpft. Die CPR ermöglicht es Forschern, Folgendes zu verknüpfen:

  • Krankenhausentlassungsdaten (seit 1977)
  • Rezeptdatenbank (seit 1995)
  • Krebsregister (seit 1943)
  • Todesursachenregister (seit 1970)
  • Primärversorgungsdiagnosedaten (seit 1990)

Diese Verknüpfbarkeit macht die dänische Gesundheitsforschung weltklasse, birgt jedoch ein Risiko der Re-Identifizierung, das Datatilsynet ernst nimmt: Selbst "de-identifizierte" Datensätze, die CPR-verknüpfte Attribute (Alter, Geschlecht, Diagnose, Jahr) beibehalten, können in Kombination mit anderen Datensätzen re-identifiziert werden.

Die Richtlinien von Datatilsynet für die sekundäre Nutzung von Gesundheitsdaten im Jahr 2024 verlangen von Organisationen, die diese Register nutzen:

Technische Anonymisierungsdokumentation: Keine politische Erklärung, sondern technische Dokumentation, die genau zeigt, welche Identifikatoren entfernt wurden, welche Quasi-Identifikatoren verallgemeinert wurden und welches k-Anonymitätsniveau im Ausgabedatensatz erreicht wurde.

Drittvalidierung für Forschungsdatensätze: Für Forschungsdatensätze mit mehr als 5.000 Personen empfiehlt Datatilsynet eine unabhängige technische Überprüfung der Anonymisierungsverfahren.

Datenminimierung: Der Umfang des Forschungsdatensatzes muss der dokumentierten Forschungsfrage entsprechen. Datatilsynet hat mehrere Fälle festgestellt, in denen Forscher vollständige nationale Register verwendeten, während eine Zufallsstichprobe oder ein geografisch begrenzter Datensatz dem Forschungszweck gedient hätte.

Spezifische Durchsetzungsbefunde im Gesundheitswesen

Die 14 Durchsetzungsentscheidungen von Datatilsynet im Gesundheitswesen im Jahr 2024 dokumentieren wiederkehrende technische Mängel:

Fallmuster 1: Krankenhaus teilt de-identifizierten Patientendatensatz mit akademischem Forschungspartner für KI-Training. Der Datensatz enthält CPR-Geburtsdatumkomponenten, Diagnosecodes und Behandlungsdaten. Datatilsynet stellt fest, dass die Kombination die Re-Identifizierung von Patienten mit seltenen Krankheiten ermöglicht (Problem des kleinen Nenners — ungewöhnliche Diagnosen schränken die Identifizierung erheblich ein).

Fallmuster 2: Health-Tech-Startup verarbeitet dänische Patientendaten über eine in den USA ansässige KI-API zur Unterstützung der klinischen Dokumentation. CPR-Nummern in medizinischen Notizen werden ohne angemessenen Übertragungsmechanismus und ohne vorherige CPR-Erkennung und -Entfernung an US-Server übertragen.

Fallmuster 3: Versicherungsgesellschaft verarbeitet Daten von medizinischen Bescheinigungen für Invaliditätsansprüche. CPR-Nummern in gescannten PDF-Zertifikaten werden von der OCR-plus-Extraktionspipeline des Unternehmens nicht erkannt (OCR wandelt Bilder in Text um; der Text wird verarbeitet, aber ohne CPR-Validierung werden viele CPR-Nummern aufgrund von Formatierungsartefakten im OCR-Ausgang übersehen).

Der Fehler im OCR-plus-Extraktionsmodus ist besonders häufig in Gesundheitskontexten, in denen Dokumente als gescannte Bilder empfangen werden. Die CPR-Erkennung muss auf OCR-verarbeiteten Text funktionieren, der oft Formatierungsinkonsistenzen (eingefügte Leerzeichen mitten in der Nummer, Fehler bei der Position der Bindestriche) einführt, die einfaches Muster-Matching stören.

Für die GDPR-Konformität im dänischen Gesundheitswesen: CPR-Erkennung mit Modulus-11-Validierung sowohl in reinem Text als auch in OCR-verarbeitetem Ausgang, dänischsprachige NER (spaCy da_core_news) und technische Anonymisierungsdokumentation, die den Standards für die sekundäre Nutzung von Datatilsynet im Jahr 2024 entspricht, sind die Mindestanforderungen.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.