Tilbage til BlogGDPR & Overholdelse

Datatilsynet Danmark: CPR-Nummer Modulus-11...

67% af NLP-værktøjer overser dansk CPR-nummer modulus-11 validering. Datatilsynets 14 sundhedsretshåndhævelsesaktioner i 2024.

April 21, 20267 min læsning
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Danmarks Datatilsynet udsendte 31 GDPR-håndhævelsesbeslutninger i 2024, hvoraf 14 specifikt involverede sundhedsdatasytemer — en koncentration der afspejler de høje indsatser i Danmarks omfattende nationale sundhedsdata infrastruktur og de tekniske fejl, der gentagne gange udsætter patientdata.

CPR-Nummer: Modulus-11 Kravet

CPR-nummeret (Det Centrale Personregister-nummer) — 10 cifre, format DDMMYY-XXXX — koder fødselsdato (cifre 1-6) og et sekventielt nummer med kontrolciffer (cifre 7-10). Det sidste ciffer valideres ved hjælp af modulus-11 aritmetik:

Modulus-11 kontrol: multiplicer cifre 1-9 med vægte (4,3,2,7,6,5,4,3,2), summér, tag modulo 11. Hvis resultatet er 0, er kontrolcifferet = 0. Hvis resultatet er 1, er CPR-nummeret ugyldigt (der findes ikke et gyldigt kontrolciffer for dette præfiks). Ellers er kontrolcifferet = 11 minus resultatet.

Dette skaber den vigtige egenskab, at nogle DDMMYY-XXXX mønstre aldrig kan være gyldige CPR-numre (de, hvor modulus-11 beregningen giver 1). Værktøjer, der mønstermatcher 10-cifrede numre formateret som DDMMYY-XXXX uden modulus-11 validering, genererer falske positiver fra datostrenge, referencenumre og fakturakoder.

67% af generiske NLP-værktøjer mangler CPR modulus-11 implementering (Datatilsynet 2024). Denne detektionsfejl er den mest citerede tekniske utilstrækkelighed i Datatilsynets sundhedsretshåndhævelsesaktioner.

Danmarks Sundhedsdata Forskningsøkosystem

Danmarks sundhedsregistre — blandt de mest komplette longitudinelle sundhedsdata sæt i verden — er knyttet sammen gennem CPR-nummeret. CPR muliggør, at forskere kan knytte:

  • Hospitalsudskrivningsoptegnelser (fra 1977)
  • Receptdatabase (fra 1995)
  • Kræftregister (fra 1943)
  • Dødsårsagsregister (fra 1970)
  • Primær sundhedsdiagnosedata (fra 1990)

Denne sammenkædning gør dansk sundhedsforskning verdensklasse, men skaber en risiko for genidentifikation, som Datatilsynet tager alvorligt: selv "de-identificerede" datasæt, der bevarer CPR-knyttede attributter (alder, køn, diagnose, år), kan genidentificeres i kombination med andre datasæt.

Datatilsynets 2024 vejledning om sekundær brug af sundhedsdata kræver, at organisationer, der bruger disse registre, demonstrerer:

Teknisk anonymiseringsdokumentation: Ikke en politik erklæring, men teknisk dokumentation, der viser præcist hvilke identifikatorer der blev fjernet, hvilke kvasi-identifikatorer der blev generaliseret, og hvilket k-anonymitetsniveau der blev opnået i det output datasæt.

Tredjeparts validering for forskningsdatasæt: For forskningsdatasæt med mere end 5.000 individer anbefaler Datatilsynet uafhængig teknisk gennemgang af anonymiseringsprocedurer.

Dataminimering: Omfanget af forskningsdatasættet skal matche det dokumenterede forskningsspørgsmål. Datatilsynet har fundet flere tilfælde, hvor forskere brugte komplette nationale registre, når et tilfældigt udvalg eller geografisk begrænset datasæt ville have tjent forskningsformålet.

Specifikke Sundhedsretshåndhævelsesfund

Datatilsynets 14 sundhedsretshåndhævelsesbeslutninger i 2024 dokumenterer tilbagevendende tekniske fejl:

Sagsmønster 1: Hospital deler de-identificeret patientdatasæt med akademisk forskningspartner til AI-træning. Datasættet indeholder CPR fødselsdato komponenter, diagnosekoder og behandlingsdatoer. Datatilsynet finder, at kombinationen muliggør genidentifikation af patienter med sjældne sygdomme (lille nævner problem — usædvanlige diagnoser indsnævrer identifikationen betydeligt).

Sagsmønster 2: Sundhedsteknologisk startup behandler danske patientdata gennem en US-baseret AI API til klinisk dokumentationssupport. CPR-numre i medicinske noter overføres til US-servere uden tilstrækkelig overførselsmekanisme og uden forudgående CPR-detektion og fjernelse.

Sagsmønster 3: Forsikringsselskab behandler medicinske certifikatdata til invaliditetskrav. CPR-numre i scannede PDF-certifikater detekteres ikke af virksomhedens OCR-plus-ekstraktionspipeline (OCR konverterer billede til tekst; tekst behandles, men uden CPR-validering, mange CPR-numre overses i OCR-outputtet på grund af formateringsartefakter).

OCR-plus-ekstraktionsfejltilstanden er særligt almindelig i sundhedskontekster, hvor dokumenter modtages som scannede billeder. CPR-detektion skal fungere på OCR-behandlet tekst, som ofte introducerer formateringsinkonsistenser (mellemrum indsat midt i nummeret, bindestreg position fejl), der bryder simpel mønster match.

For dansk sundheds GDPR-overholdelse: CPR-detektion med modulus-11 validering i både ren tekst og OCR-behandlet output, dansk sprog NER (spaCy da_core_news), og teknisk anonymiseringsdokumentation, der opfylder Datatilsynets 2024 sekundære brug standarder, er minimumskravene.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.