Deense CPR-nummers: AVG-nalevingsgids
Bijgewerkt voor 2026
De Deense gegevensbeschermingstoezichthouder, Datatilsynet, heeft in 2024 31 AVG-beslissingen genomen. Veertien hadden betrekking op gezondheidsdata. Dat hoge aandeel weerspiegelt twee feiten: Denemarken exploiteert een groot nationaal gezondheidssysteem, en technische tekortkomingen in dat systeem blijven patiëntgegevens blootstellen.
De controlecijferregel voor CPR-nummers
Een CPR-nummer is het persoonlijke ID van Denemarken. Het bestaat uit 10 cijfers in het formaat DDMMJJ-XXXX. De eerste zes cijfers zijn de geboortedatum. De laatste vier zijn een code plus een controlecijfer.
Het controlecijfer maakt gebruik van een modulus-11-regel:
- Neem cijfers 1 tot 9.
- Ken elk een gewicht toe: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Vermenigvuldig elk cijfer met zijn gewicht. Tel alle uitkomsten op.
- Deel door 11. Noteer de rest.
- Rest 0 → controlecijfer is 0.
- Rest 1 → het nummer is niet geldig.
- Rest 2–10 → controlecijfer is 11 min de rest.
Deze regel is van belang voor elke tool die CPR-nummers scant. Sommige DDMMJJ-XXXX-reeksen kunnen nooit geldig zijn. Tools die deze stap overslaan, markeren data, factuurcodes en referentienummers als echte ID's.
De beoordeling van de autoriteit uit 2024 toonde aan dat 67% van de generieke NLP-tools deze controle overslaat. Dat hiaat is de belangrijkste technische tekortkoming in haar gezondheidszorgzaken.
De vijf gezondheidsregisters van Denemarken
Denemarken koppelt gezondheidsdata via vijf nationale registers. Het persoonlijke ID verbindt alle vijf.
- Ziekenhuisontlagregistraties (vanaf 1977)
- Receptgegevens (vanaf 1995)
- Kankerregister (vanaf 1943)
- Register oorzaak van overlijden (vanaf 1970)
- Huisartsdiagnoses (vanaf 1990)
Dit maakt Deens gezondheidsonderzoek zeer waardevol. Het creëert ook risico's. Verwijdering van het onbewerkte ID is niet voldoende. Een dataset die nog steeds leeftijd, geslacht, diagnose en jaar bevat, kan mensen opnieuw blootstellen — met name degenen met zeldzame aandoeningen.
De richtsnoeren van Datatilsynet uit 2024 over secundair gebruik van gezondheidsdata stellen drie vereisten.
Leg vast wat u met de data heeft gedaan: Vermeld welke velden u heeft verwijderd, welke u heeft afgerond of gegroepeerd, en welke groepsgrootte de uitvoer bereikt. Een beleidsnotitie voldoet niet aan deze standaard.
Laat grote datasets extern controleren: Voor datasets met meer dan 5.000 personen beveelt de autoriteit een onafhankelijke technische beoordeling van de de-identificatiestappen aan.
Stem de data af op de vraag: De dataset moet passen bij het aangegeven onderzoeksdoel. De autoriteit heeft gevallen aangetroffen waarbij teams volledige nationale registers gebruikten terwijl een kleinere steekproef had volstaan.
Zie onze EU nationale ID-detectiegids voor hoe controlecijferregels van toepassing zijn op andere Europese ID-formaten.
Wat de 2024-zaken hebben uitgewezen
De 14 gezondheidszorgzaken delen drie gemeenschappelijke tekortkomingstypen.
Delen van onderzoeksdata: Een ziekenhuis stuurt een gede-identificeerde patiëntdataset naar een academische partner voor AI-training. De set bevat geboortedatumonderdelen, diagnosecodes en behandeldatums. De autoriteit oordeelt dat deze combinatie patiënten met zeldzame ziekten opnieuw blootstelt. Ongewone diagnoses versmallen de groep snel.
AI-diensten van derden: Een gezondheidstechbedrijf stuurt patiëntnota's naar een Amerikaanse AI-dienst voor klinische dossierverwerking. Persoonlijke ID's in die nota's worden niet eerst verwijderd. Er is geen geldig transfermechanisme.
Hiaten in OCR-pijplijnen: Een verzekeraar verwerkt gescande PDF-formulieren voor arbeidsongeschiktheidsclaims. De OCR-tool zet afbeeldingen om naar tekst. Maar er worden geen controlecijfercontroles uitgevoerd op de uitvoer. Veel ID's worden gemist.
OCR voegt vaak spaties in midden in een nummer of verschuift het koppelteken. Eenvoudige patroonherkenning werkt niet op die uitvoer. Detectie moet werken op OCR-tekst, niet alleen op nette invoer. Zie onze OCR-gezondheidszorgdetectiegids voor stappen om gescande documenten te verwerken.
Drie technische vereisten
Deze drie elementen vormen de basis voor Deense zorgvuldigheids-AVG-naleving in de gezondheidszorg.
Controlecijfercontroles op alle tekst: Voer de volledige modulus-11-controle uit op elke kandidaatreeks. Pas dit toe op zowel nette tekst als OCR-uitvoer.
Deenstalige naamdetectie: Gebruik een model dat getraind is op Deense tekst. Het spaCy da_core_news-model is één optie. Een generiek Engelstalig model mist Deense persoonsnames en organisatienamen.
De-identificatieregisters: Leg vast wat er is verwijderd, wat er is gegroepeerd en welke groepsgrootte de uitvoer bereikt. De autoriteit vraagt dit in technische vorm, niet als beleidsnotitie.
Voor gegevens over de kosten van incidenten met gezondheidsdata, zie onze analyse van inbreukkosten in de gezondheidszorg.