Danske stevilke CPR: Vodnik za skladnost z GDPR
Posodobljeno za leto 2026
Danski podatkovni nadzornik, Datatilsynet, je leta 2024 izdal 31 odlocb po GDPR. Stirinajiht je zadevalo zdravstvene podatke. Ta visok delez odrazata dve dejstvi: Danska izvaja velik nacionalni zdravstveni sistem, tehnicne vrzeli v tem sistemu pa stalno razgaljajo pacientske evidence.
Pravilo o kontrolni stevki za stevilke CPR
Stevilka CPR je danski osebni identifikator. To je 10 stevk v formatu DDMMLL-XXXX. Prvih sest stevk je datum rojstva. Zadnje stiri so koda in kontrolna stevka.
Kontrolna stevka uporablja pravilo modulo 11:
- Vzamemo stevke 1 do 9.
- Vsakemu pripisemo ponder: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Vsako stevko pomnozimo z njenim pondrom. Sestejemo vse rezultate.
- Delimo z 11. Zapisemo ostanek.
- Ostanek 0 - kontrolna stevka je 0.
- Ostanek 1 - stevilka ni veljavna.
- Ostanek 2-10 - kontrolna stevka je 11 minus ostanek.
To pravilo je pomembno za vsako orodje, ki pregleduje stevilke CPR. Nekateri nizi DDMMLL-XXXX nikoli ne morejo biti veljavni. Orodja, ki ta korak preskocijo, oznacijo datume, sifre racunov in referenne stevilke kot prave identifikatorje.
Pregled organa iz leta 2024 je pokazal, da 67 % genericnih orodij NLP ta korak preskooci. Ta vrzel je najpogostejsa tehnicna napaka v zdravstvenih primerih organa.
Petih danskih zdravstvenih registrov
Danska povezuje zdravstvene podatke v petih nacionalnih registrih. Osebni identifikator jih povezuje vseh pet skupaj.
- Evidence o bolnisnicnih odpustih (od leta 1977)
- Podatki o receptih (od leta 1995)
- Register raka (od leta 1943)
- Register vzrokov smrti (od leta 1970)
- Diagnoze primarne zdravstvene oskrbe (od leta 1990)
To naredi dansko zdravstveno raziskovanje zelo mocno. Ustvarja pa tudi tveganje. Odstranitev neobdelanega identifikatorja ni dovolj. Nabor podatkov, ki se vedno vsebuje starost, spol, diagnozo in leto, lahko znova razgali osebe - zlasti tiste z redkimi stanji.
Smernice Datatilsynet iz leta 2024 za sekundarno uporabo zdravstvenih podatkov postavljajo tri zahteve.
Zapisite, kaj ste storili s podatki: Navedite, katera polja ste odstranili, katera ste zaokrozili ali grupirali in katera velikost skupin dosega izhod. Opomba o politiki ne ustreza temu standardu.
Za velike nabore pridobite zunanjo revizijo: Za nabore podatkov z vec kot 5.000 osebami organ priporoca neodvisni tehnicni pregled korakov de-identifikacije.
Ujemite podatke z vprasanjem: Nabor podatkov mora ustrezati navedenemu cilju raziskave. Organ je nasel primere, ko so ekipe uporabile polne nacionalne registre, ko bi zadostoval manjsi vzorec.
Za primerjavo pravil o kontrolnih stevkah pri drugih evropskih formatih ID glejte nas vodnik za zaznavanje nacionalnih ID EU.
Kaj so pokazali primeri iz leta 2024
Stirinajiht zdravstvenih primerov deli tri skupne tipe napak.
Deljenje raziskovalnih podatkov: Bolnisnica poslje de-identificirani nabor podatkov o pacientih akademskemu partnerju za usposabljanje umetne inteligence. Nabor vsebuje dele datumov rojstev, kode diagnoz in datume zdravljenja. Organ ugotovi, da ta mesanica znova razgali paciente z redkimi boleznimi. Neobicajne diagnoze hitro zozijo skupino.
Storitve umetne inteligence tretjih strani: Podjetje za zdravstvene tehnologije poslje pacientske zapiske americani storitvi umetne inteligence za delo s klinicnimi evidencami. Osebni identifikatorji v teh zapiskih niso predhodno odstranjeni. Na voljo ni veljavnega mehanizma prenosa.
Vrzeli v cevovodu OCR: Zavarovalnica obdeluje skenirana obrazca PDF za zahtevke za invalidnost. Orodje OCR pretvori slike v besedilo. A ne izvaja kontrolnih testov stevilk na izhodu. Veliko identifikatorjev je zamudenih.
OCR pogosto vstavi presledke sredi stevilke ali premakne crtico. Preprosto ujemanje vzorcev se zlomi na takem izhodu. Zaznavanje mora delovati na besedilu OCR, ne le na cistem vnosu. Za postopke ravnanja s skeniranimi dokumenti glejte nas vodnik za zaznavanje OI v zdravstvenem OCR.
Tri tehnicne nujnosti
Ti trije elementi tvorijo osnovo za dansko zdravstveno skladnost z GDPR.
Testi kontrolnih stevk na vsem besedilu: Izvedite polno kontrolo modulo 11 na vsakem kandidatnem nizu. Uporabite jo tako za cisto besedilo kot za izhod OCR.
Zaznavanje danskih imen NER: Uporabite model, usposobljen na danskem besedilu. Model spaCy da_core_news je ena od moznosti. Genericni angleski model zamudi danska imena in imena organizacij.
Evidence de-identifikacije: Zapisite, kaj je bilo odstranjeno, kaj je bilo grupirano in velikost skupin izhoda. Organ to zahteva v tehnicni obliki, ne kot opombo o politiki.
Za podatke o stroskih incidentov z zdravstvenimi podatki glejte naso analizo stroskov krsitev v zdravstvu.