Danmarks Datatilsynet utstedte 31 GDPR-håndhevelsesvedtak i 2024, hvorav 14 spesifikt involverte helsevesenets datasystemer — en konsentrasjon som reflekterer de høye innsatsene i Danmarks omfattende nasjonale helse-datainfrastruktur og de tekniske feilene som gjentatte ganger eksponerer pasientdata.
CPR-nummer: Modulus-11-kravet
CPR-nummeret (Det Centrale Personregister-nummer) — 10 sifre, format DDMMYY-XXXX — koder fødselsdato (sifre 1-6) og et sekvensielt nummer med kontrollsiffer (sifre 7-10). Det siste sifferet valideres ved hjelp av modulus-11 aritmetikk:
Modulus-11 sjekk: multipliser sifrene 1-9 med vekter (4,3,2,7,6,5,4,3,2), summer, ta modulo 11. Hvis resultatet er 0, er kontrollsifferet = 0. Hvis resultatet er 1, er CPR-nummeret ugyldig (det finnes ikke noe gyldig kontrollsiffer for dette prefikset). Ellers er kontrollsifferet = 11 minus resultatet.
Dette skaper den viktige egenskapen at noen DDMMYY-XXXX mønstre aldri kan være gyldige CPR-nummer (de som hvor modulo-11 beregningen gir 1). Verktøy som mønstergjenkjenner 10-sifrede tall formatert som DDMMYY-XXXX uten modulus-11 validering genererer falske positiver fra datostrenger, referansenummer og fakturakoder.
67% av generiske NLP-verktøy mangler implementering av CPR modulus-11 (Datatilsynet 2024). Denne deteksjonsfeilen er den mest siterte tekniske utilstrekkeligheten i Datatilsynets håndhevelsesaksjoner innen helsevesenet.
Danmarks helse-datforskning økosystem
Danmarks helseregistre — blant de mest komplette longitudinelle helse-datasett i verden — er knyttet sammen gjennom CPR-nummeret. CPR muliggjør at forskere kan knytte:
- Utskrivningsjournaler fra sykehus (fra 1977)
- Forskrivningsdatabase (fra 1995)
- Kreftregister (fra 1943)
- Dødsårsaksregister (fra 1970)
- Primærhelsetjeneste diagnose data (fra 1990)
Denne koblebarheten gjør dansk helseforskning verdensklasse, men skaper en re-identifikasjonsrisiko som Datatilsynet tar på alvor: selv "de-identifiserte" datasett som beholder CPR-knyttede attributter (alder, kjønn, diagnose, år) kan bli re-identifisert i kombinasjon med andre datasett.
Datatilsynets veiledning for 2024 om sekundær bruk av helsedata krever at organisasjoner som bruker disse registrene viser:
Teknisk anonymiseringsdokumentasjon: Ikke en policyuttalelse, men teknisk dokumentasjon som viser nøyaktig hvilke identifikatorer som ble fjernet, hvilke kvasi-identifikatorer som ble generalisert, og hvilket k-anonymitetsnivå som ble oppnådd i utdata-datasettet.
Tredjepartsvalidering for forskningsdatasett: For forskningsdatasett med mer enn 5 000 individer anbefaler Datatilsynet uavhengig teknisk gjennomgang av anonymiseringsprosedyrer.
Dataminimering: Omfanget av forskningsdatasettet må samsvare med det dokumenterte forskningsspørsmålet. Datatilsynet har funnet flere tilfeller der forskere brukte komplette nasjonale registre når et tilfeldig utvalg eller geografisk begrenset datasett ville ha tjent forskningsformålet.
Spesifikke håndhevelsesfunn innen helsevesenet
Datatilsynets 14 håndhevelsesvedtak innen helsevesenet i 2024 dokumenterer gjentakende tekniske feil:
Saksmønster 1: Sykehus deler de-identifisert pasientdatasett med akademisk forskningspartner for AI-trening. Datasettet inneholder CPR-fødselsdato komponenter, diagnosekoder og behandlingsdatoer. Datatilsynet finner at kombinasjonen muliggjør re-identifikasjon av pasienter med sjeldne sykdommer (lite nevnerproblem — uvanlige diagnoser snevrer inn identifikasjonen betydelig).
Saksmønster 2: Helse-teknologi oppstart behandler danske pasientdata gjennom US-basert AI API for klinisk dokumentasjonsstøtte. CPR-numre i medisinske notater overføres til amerikanske servere uten tilstrekkelig overføringsmekanisme og uten forhåndsdeteksjon og fjerning av CPR.
Saksmønster 3: Forsikringsselskap behandler medisinske sertifikatdata for uførekrav. CPR-numre i skannede PDF-sertifikater oppdages ikke av selskapets OCR-pluss-ekstraksjonspipeline (OCR konverterer bilde til tekst; tekst behandles, men uten CPR-validering, mange CPR-numre blir oversett i OCR-utdata på grunn av formateringsartefakter).
Feilmodus for OCR-pluss-ekstraksjon er spesielt vanlig i helsevesenets sammenhenger der dokumenter mottas som skannede bilder. CPR-detektering må fungere på OCR-prosessert tekst, som ofte introduserer formateringsinkonsistenser (mellomrom satt inn midt i nummeret, bindestrekposisjonsfeil) som bryter enkel mønstergjenkjenning.
For dansk helse-GDPR-overholdelse: CPR-detektering med modulus-11 validering i både ren tekst og OCR-prosessert utdata, dansk-språklig NER (spaCy da_core_news), og teknisk anonymiseringsdokumentasjon som møter Datatilsynets 2024 sekundære bruksstandarder er minimumskravene.
Kilder: