By · Last updated 2026-05-18

Tilbake til BloggGDPR & Overholdelse

Datatilsynet Danmark: Validering av CPR-nummer...

67% av NLP-verktøyene mangler validering av dansk CPR-nummer modulus-11. Datatilsynets 14 håndhevelsesaksjoner innen helsevesenet i 2024.

May 18, 20267 min lesing
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Danmarks Datatilsynet utstedte 31 GDPR-håndhevelsesvedtak i 2024, hvorav 14 spesifikt involverte helsevesenets datasystemer — en konsentrasjon som reflekterer de høye innsatsene i Danmarks omfattende nasjonale helse-datainfrastruktur og de tekniske feilene som gjentatte ganger eksponerer pasientdata.

CPR-nummer: Modulus-11-kravet

CPR-nummeret (Det Centrale Personregister-nummer) — 10 sifre, format DDMMYY-XXXX — koder fødselsdato (sifre 1-6) og et sekvensielt nummer med kontrollsiffer (sifre 7-10). Det siste sifferet valideres ved hjelp av modulus-11 aritmetikk:

Modulus-11 sjekk: multipliser sifrene 1-9 med vekter (4,3,2,7,6,5,4,3,2), summer, ta modulo 11. Hvis resultatet er 0, er kontrollsifferet = 0. Hvis resultatet er 1, er CPR-nummeret ugyldig (det finnes ikke noe gyldig kontrollsiffer for dette prefikset). Ellers er kontrollsifferet = 11 minus resultatet.

Dette skaper den viktige egenskapen at noen DDMMYY-XXXX mønstre aldri kan være gyldige CPR-nummer (de som hvor modulo-11 beregningen gir 1). Verktøy som mønstergjenkjenner 10-sifrede tall formatert som DDMMYY-XXXX uten modulus-11 validering genererer falske positiver fra datostrenger, referansenummer og fakturakoder.

67% av generiske NLP-verktøy mangler implementering av CPR modulus-11 (Datatilsynet 2024). Denne deteksjonsfeilen er den mest siterte tekniske utilstrekkeligheten i Datatilsynets håndhevelsesaksjoner innen helsevesenet.

Danmarks helse-datforskning økosystem

Danmarks helseregistre — blant de mest komplette longitudinelle helse-datasett i verden — er knyttet sammen gjennom CPR-nummeret. CPR muliggjør at forskere kan knytte:

  • Utskrivningsjournaler fra sykehus (fra 1977)
  • Forskrivningsdatabase (fra 1995)
  • Kreftregister (fra 1943)
  • Dødsårsaksregister (fra 1970)
  • Primærhelsetjeneste diagnose data (fra 1990)

Denne koblebarheten gjør dansk helseforskning verdensklasse, men skaper en re-identifikasjonsrisiko som Datatilsynet tar på alvor: selv "de-identifiserte" datasett som beholder CPR-knyttede attributter (alder, kjønn, diagnose, år) kan bli re-identifisert i kombinasjon med andre datasett.

Datatilsynets veiledning for 2024 om sekundær bruk av helsedata krever at organisasjoner som bruker disse registrene viser:

Teknisk anonymiseringsdokumentasjon: Ikke en policyuttalelse, men teknisk dokumentasjon som viser nøyaktig hvilke identifikatorer som ble fjernet, hvilke kvasi-identifikatorer som ble generalisert, og hvilket k-anonymitetsnivå som ble oppnådd i utdata-datasettet.

Tredjepartsvalidering for forskningsdatasett: For forskningsdatasett med mer enn 5 000 individer anbefaler Datatilsynet uavhengig teknisk gjennomgang av anonymiseringsprosedyrer.

Dataminimering: Omfanget av forskningsdatasettet må samsvare med det dokumenterte forskningsspørsmålet. Datatilsynet har funnet flere tilfeller der forskere brukte komplette nasjonale registre når et tilfeldig utvalg eller geografisk begrenset datasett ville ha tjent forskningsformålet.

Spesifikke håndhevelsesfunn innen helsevesenet

Datatilsynets 14 håndhevelsesvedtak innen helsevesenet i 2024 dokumenterer gjentakende tekniske feil:

Saksmønster 1: Sykehus deler de-identifisert pasientdatasett med akademisk forskningspartner for AI-trening. Datasettet inneholder CPR-fødselsdato komponenter, diagnosekoder og behandlingsdatoer. Datatilsynet finner at kombinasjonen muliggjør re-identifikasjon av pasienter med sjeldne sykdommer (lite nevnerproblem — uvanlige diagnoser snevrer inn identifikasjonen betydelig).

Saksmønster 2: Helse-teknologi oppstart behandler danske pasientdata gjennom US-basert AI API for klinisk dokumentasjonsstøtte. CPR-numre i medisinske notater overføres til amerikanske servere uten tilstrekkelig overføringsmekanisme og uten forhåndsdeteksjon og fjerning av CPR.

Saksmønster 3: Forsikringsselskap behandler medisinske sertifikatdata for uførekrav. CPR-numre i skannede PDF-sertifikater oppdages ikke av selskapets OCR-pluss-ekstraksjonspipeline (OCR konverterer bilde til tekst; tekst behandles, men uten CPR-validering, mange CPR-numre blir oversett i OCR-utdata på grunn av formateringsartefakter).

Feilmodus for OCR-pluss-ekstraksjon er spesielt vanlig i helsevesenets sammenhenger der dokumenter mottas som skannede bilder. CPR-detektering må fungere på OCR-prosessert tekst, som ofte introduserer formateringsinkonsistenser (mellomrom satt inn midt i nummeret, bindestrekposisjonsfeil) som bryter enkel mønstergjenkjenning.

For dansk helse-GDPR-overholdelse: CPR-detektering med modulus-11 validering i både ren tekst og OCR-prosessert utdata, dansk-språklig NER (spaCy da_core_news), og teknisk anonymiseringsdokumentasjon som møter Datatilsynets 2024 sekundære bruksstandarder er minimumskravene.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.