Mga Numero ng CPR ng Denmark: Gabay sa Pagsunod sa GDPR
Na-update para sa 2026
Ang bantay ng datos ng Denmark, ang Datatilsynet, ay naglabas ng 31 desisyon ng GDPR noong 2024. Labing-apat ang kinasasangkutan ng datos ng healthcare. Ang mataas na proporsyon na iyon ay sumasalamin sa dalawang katotohanan: nagpapatakbo ang Denmark ng malaking pambansang sistema ng kalusugan, at ang mga teknikal na agwat sa sistemang iyon ay patuloy na nagbubunyag ng mga rekord ng pasyente.
Ang Panuntunan ng Check-Digit para sa Mga Numero ng CPR
Ang numero ng CPR ay ang personal na ID ng Denmark. Ito ay 10 digit sa format na DDMMYY-XXXX. Ang unang anim na digit ay ang petsa ng kapanganakan. Ang huling apat ay isang code kasama ang isang check digit.
Gumagamit ang check digit ng panuntunan ng modulus-11:
- Kunin ang mga digit 1 hanggang 9.
- Bigyan ng timbang ang bawat isa: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- I-multiply ang bawat digit sa pamamagitan ng timbang nito. Idagdag ang lahat ng resulta.
- Hatiin sa 11. Tandaan ang natitira.
- Natitira 0 → ang check digit ay 0.
- Natitira 1 → ang numero ay hindi wasto.
- Natitira 2–10 → ang check digit ay 11 minus ang natitira.
Ang panuntunan na ito ay mahalaga para sa anumang tool na nag-i-scan para sa mga numero ng CPR. Ang ilang string na DDMMYY-XXXX ay hindi kailanman magiging wasto. Ang mga tool na nilalaktawan ang hakbang na ito ay nag-flag ng mga petsa, mga code ng invoice, at mga numero ng sanggunian bilang mga tunay na ID.
Natuklasan ng 2024 na pagsusuri ng awtoridad na 67% ng mga generic na NLP tool ay nilalaktawan ang tsekeng ito. Ang agwat na iyon ay ang nangungunang teknikal na kabiguan sa mga kaso ng healthcare nito.
Limang Health Registry ng Denmark
Nag-uugnay ang Denmark ng datos ng kalusugan sa limang pambansang registry. Ang personal na ID ay nagtatali ng lahat ng lima nang magkasama.
- Mga tala ng discharge ng ospital (mula 1977)
- Datos ng reseta (mula 1995)
- Registry ng cancer (mula 1943)
- Registry ng sanhi ng kamatayan (mula 1970)
- Mga diagnosis ng pangunahing pag-aalaga (mula 1990)
Ginagawa nitong napaka-malakas ang pananaliksik sa kalusugan ng Denmark. Lumilikha rin ito ng panganib. Ang pag-alis ng raw na ID ay hindi sapat. Ang isang dataset na nagtataglay pa rin ng edad, kasarian, diagnosis, at taon ay maaaring muling ilantad ang mga tao — lalo na ang mga may mga bihirang kondisyon.
Nagtakda ang 2024 na gabay ng Datatilsynet sa pangalawang paggamit ng datos ng kalusugan ng tatlong kinakailangan.
Isulat kung ano ang ginawa mo sa datos: Ilista kung aling mga field ang inalis mo, kung alin ang binalanse o pinangkat, at kung anong laki ng grupo ang output. Ang isang tala ng patakaran ay hindi natutugunan ang pamantayang ito.
Makakuha ng panlabas na pagsusuri para sa malalaking set: Para sa mga dataset na may mahigit 5,000 tao, inirerekomenda ng awtoridad ang isang independiyenteng teknikal na pagsusuri ng mga hakbang ng de-identification.
Itugma ang datos sa tanong: Ang dataset ay dapat na angkop sa nakatakdang layunin ng pananaliksik. Natuklasan ng awtoridad ang mga kaso kung saan gumamit ang mga team ng buong pambansang registry habang ang isang mas maliit na sample ay sana ay gumana.
Tingnan ang aming gabay sa pag-detect ng EU national ID para sa kung paano nalalapat ang mga panuntunan ng check-digit sa iba pang format ng European ID.
Ano ang Natuklasan ng mga Kaso noong 2024
Ang 14 na kaso ng healthcare ay nagbabahagi ng tatlong karaniwang uri ng kabiguan.
Pagbabahagi ng datos ng pananaliksik: Nagpapadala ang isang ospital ng de-identified na dataset ng pasyente sa isang akademikong kasosyo para sa pagsasanay ng AI. Ang set ay nagtataglay ng mga bahagi ng petsa ng kapanganakan, mga code ng diagnosis, at mga petsa ng paggamot. Natuklasan ng awtoridad na muling inilalantad ng pinagsamang ito ang mga pasyente na may mga bihirang sakit. Ang mga hindi pangkaraniwang diagnosis ay mabilis na nagpapaliit ng pool.
Mga serbisyo ng AI ng third-party: Nagpapadala ang isang health tech firm ng mga tala ng pasyente sa isang serbisyo ng AI na nakabase sa US para sa trabaho sa mga clinical record. Ang mga personal na ID sa mga tala na iyon ay hindi inalis muna. Walang wastong mekanismo ng paglipat ang nakalagay.
Mga agwat ng pipeline ng OCR: Nagpoproseso ang isang insurer ng mga na-scan na PDF form para sa mga claim ng kapansanan. Ang tool ng OCR nito ay nagko-convert ng mga imahe sa teksto. Ngunit hindi ito nagpapatakbo ng mga tseke ng check-digit sa output. Maraming ID ang hindi napapansin.
Madalas na naglalagay ng mga espasyo sa kalagitnaan ng numero ang OCR o nagpapabago ng dash. Ang simpleng pattern matching ay nasisira sa output na iyon. Ang pag-detect ay dapat gumana sa teksto ng OCR, hindi lamang sa malinis na input. Tingnan ang aming gabay sa pag-detect ng OCR healthcare para sa mga hakbang sa paghawak ng mga na-scan na dokumento.
Tatlong Technical na Dapat-Mayroon
Ang tatlong elementong ito ay bumubuo ng base para sa pagsunod sa Danish healthcare GDPR.
Mga tseke ng check-digit sa lahat ng teksto: Patakbuhin ang buong tseke ng modulus-11 sa bawat candidate string. Ilapat ito sa malinis na teksto at output ng OCR nang magkapareho.
Pag-detect ng pangalan sa wikang Danish: Gumamit ng modelong sinanay sa Danish na teksto. Ang modelong spaCy da_core_news ay isang pagpipilian. Ang isang generic na modelong Ingles ay nakalilikha ng pagkabigo sa mga pangalan ng Danish at mga pangalan ng org.
Mga tala ng de-identification: Isulat kung ano ang inalis, kung ano ang pinangkat, at ang laki ng grupo ng output. Hihingi ang awtoridad nito sa teknikal na anyo, hindi bilang isang tala ng patakaran.
Para sa datos ng gastos ng mga insidente ng datos ng healthcare, tingnan ang aming pagsusuri ng gastos ng breach ng healthcare.