Dansk CPR-nummer: GDPR-overholdelsesguide
Oppdatert for 2026
Danmarks datatilsyn, Datatilsynet, utstedte 31 GDPR-avgjørelser i 2024. Fjorten gjaldt helsedata. Den høye andelen gjenspeiler to fakta: Danmark driver et stort nasjonalt helsesystem, og tekniske hull i det systemet fortsetter å eksponere pasientregistre.
Kontrollsiffer-regelen for CPR-numre
Et CPR-nummer er Danmarks personlige ID. Det er 10 sifre i formatet DDMMÅÅ-XXXX. De første seks sifrene er fødselsdatoen. De siste fire er en kode pluss et kontrollsiffer.
Kontrollsifferet bruker en modulus-11-regel:
- Ta siffer 1 til 9.
- Gi hvert en vekt: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Multipliser hvert siffer med sin vekt. Legg sammen alle resultater.
- Del på 11. Merk resten.
- Rest 0 → kontrollsifferet er 0.
- Rest 1 → nummeret er ikke gyldig.
- Rest 2–10 → kontrollsifferet er 11 minus resten.
Denne regelen gjelder for ethvert verktøy som søker etter CPR-numre. Noen DDMMÅÅ-XXXX-strenger kan aldri være gyldige. Verktøy som hopper over dette steget, flagger datoer, fakturakoder og referansenumre som ekte ID-er.
Myndighetenes gjennomgang fra 2024 fant at 67% av generiske NLP-verktøy hopper over denne sjekken. Det gapet er den viktigste tekniske feilen i helsevesenets saker.
Danmarks fem helseregistre
Danmark kobler helsedata på tvers av fem nasjonale registre. Det personlige ID-et knytter alle fem sammen.
- Utskrivingsregistre fra sykehus (fra 1977)
- Reseptdata (fra 1995)
- Kreftregister (fra 1943)
- Register for dødsårsaker (fra 1970)
- Primærdiagnoser (fra 1990)
Dette gjør dansk helseforskning svært sterk. Det skaper også en risiko. Å fjerne rå-ID-et er ikke nok. Et datasett som fortsatt inneholder alder, kjønn, diagnose og år kan re-eksponere personer — spesielt de med sjeldne tilstander.
Datatilsynets veiledning fra 2024 om sekundær bruk av helsedata setter tre krav.
Skriv ned hva du gjorde med dataene: List opp hvilke felt du fjernet, hvilke du avrundet eller gruppert, og hvilken gruppestørrelse resultatet oppnår. Et policydokument oppfyller ikke denne standarden.
Få en ekstern gjennomgang for store datasett: For datasett med mer enn 5 000 personer anbefaler myndigheten en uavhengig teknisk gjennomgang av avidentifiseringstrinnene.
Match dataene til spørsmålet: Datasettet må passe det angitte forskningsmålet. Myndigheten fant tilfeller der team brukte fullstendige nasjonale registre når et mindre utvalg ville ha fungert.
Se vår EU-guide for nasjonal ID-deteksjon for hvordan kontrollsiffer-regler gjelder for andre europeiske ID-formater.
Hva 2024-sakene fant
De 14 helsevesensakene deler tre vanlige feiltyper.
Deling av forskningsdata: Et sykehus sender et avidentifisert pasientdatasett til en akademisk partner for AI-trening. Settet inneholder deler av fødselsdato, diagnosekoder og behandlingsdatoer. Myndigheten finner at denne kombinasjonen re-eksponerer pasienter med sjeldne sykdommer. Uvanlige diagnoser innsnevrer gruppen raskt.
AI-tjenester fra tredjeparter: En helseteknikk-virksomhet sender pasientnotater til en amerikansk AI-tjeneste for klinisk journalarbeid. Personlige ID-er i disse notatene fjernes ikke først. Ingen gyldig overføringsmekanisme er på plass.
Hull i OCR-pipeline: Et forsikringsselskap behandler skannede PDF-skjemaer for uførekrav. OCR-verktøyet konverterer bilder til tekst. Men det kjører ikke kontrollsiffer-tester på resultatet. Mange ID-er overses.
OCR setter ofte inn mellomrom midt i et nummer eller forskyver bindestreken. Enkel mønstermatching bryter på det resultatet. Deteksjon må fungere på OCR-tekst, ikke bare ren inndata. Se vår OCR-guide for helsedeteksjon for trinn til å håndtere skannede dokumenter.
Tre tekniske must-haves
Disse tre elementene utgjør grunnlinjen for dansk helsevesen GDPR-overholdelse.
Kontrollsiffer-tester på all tekst: Kjør den fullstendige modulus-11-sjekken på alle kandidatstrenger. Bruk den på ren tekst og OCR-resultat likt.
Danskspråklig navnedeteksjon: Bruk en modell trent på dansk tekst. spaCy-modellen da_core_news er ett alternativ. En generisk engelsk modell bommer på danske navn og organisasjonsnavn.
Avidentifiseringsregistre: Skriv ned hva som ble fjernet, hva som ble gruppert, og utdataenes gruppestørrelse. Myndigheten ber om dette i teknisk form, ikke som et policydokument.
For data om kostnadene ved datahendelser i helsevesenet, se vår analyse av kostnader ved helsebrudd.