Taani CPR-numbrid: GDPR-i vastavuse juhend
Uuendatud 2026. aasta seisuga
Taani andmekaitseasutus Datatilsynet tegi 2024. aastal 31 GDPR-i otsust. Neljateist neist puudutas tervishoiuandmeid. See kõrge osakaal peegeldab kahte fakti: Taanil on suur riiklik tervishoiusüsteem ja tehnilised lüngad selles süsteemis paljastavad patsiendi andmeid jätkuvalt.
CPR-numbri kontrollnumbri reegel
CPR-number on Taani isiklik ID. See on PPKKAA-XXXX formaadis 10 numbrit. Esimesed kuus numbrit on sünnikuupäev. Viimased neli on kood ja kontrollnumber.
Kontrollnumber kasutab modulus-11 reeglit:
- Võetakse numbrid 1 kuni 9.
- Antakse igale kaal: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Korrutatakse iga number oma kaaluga. Liidetakse kõik tulemused.
- Jagatakse 11-ga. Märgitakse jääk.
- Jääk 0 -> kontrollnumber on 0.
- Jääk 1 -> number ei kehti.
- Jääk 2-10 -> kontrollnumber on 11 miinus jääk.
See reegel on oluline igale tööriistale, mis otsib CPR-numbreid. Mõned PPKKAA-XXXX stringid ei saa kunagi olla kehtivad. Tööriistad, mis selle sammu vahele jätavad, märgivad kuupäevad, arvekoodid ja viitenumbrid päris ID-dena.
Asutuse 2024. aasta ülevaade leidis, et 67% üldistest NLP-tööriistadest jätab selle kontrolli vahele. See lünk on selle tervishoiujuhtumite peamine tehniline ebaõnnestumine.
Taani viis tervishoiuregistrit
Taani seob tervishoiuandmeid viie riikliku registri kaudu. Isiklik ID seob kõik viis kokku.
- Haiglast väljakirjutamise andmed (alates 1977)
- Retseptiandmed (alates 1995)
- Vähiregister (alates 1943)
- Surmapõhjuste register (alates 1970)
- Esmatasandi arstiabi diagnoosid (alates 1990)
See muudab Taani tervishoiuuringud väga tugevaks. See tekitab ka riski. Tooru ID eemaldamine ei ole piisav. Andmekogum, mis sisaldab endiselt vanust, sugu, diagnoosi ja aastat, võib inimesi uuesti paljastada — eriti haruldaste haigustega inimesi.
Datatilsynet'i 2024. aasta juhend tervishoiuandmete teisese kasutamise kohta seab kolm nõuet.
Dokumenteerige, mida andmetega tegite: Loetlege, millised väljad eemaldate, millised ümardate või rühmitatute ja millist grupisuurust väljund saavutab. Poliitika märkus ei vasta sellele standardile.
Hankige suurte kogumite jaoks väline ülevaade: Üle 5000 inimesega andmekogumite puhul soovitab asutus isikuandmete de-identifitseerimise sammude sõltumatut tehnilist ülevaatust.
Sobitada andmed küsimusega: Andmekogum peab vastama esitatud uurimiseesmärgile. Asutus leidis juhtumeid, kus meeskonnad kasutasid täielikke riiklikke registreid, kui piisanud oleks väiksemast valimist.
Vaadake meie ELi riiklike ID-de tuvastamise juhendit selle kohta, kuidas kontrollnumbri reeglid kehtivad teiste Euroopa ID-formaatide puhul.
Mida 2024. aasta juhtumid leidsid
Kaheteistkümnendal tervishoiujuhtumil on kolm ühist ebaõnnestumise tüüpi.
Uurimisandmete jagamine: Haigla saadab de-identifitseeritud patsiendiandmekogumi akadeemilisele partnerile AI-koolituseks. Kogum sisaldab sünnikuupäeva osi, diagnoosikoodide ja ravikuupäevad. Asutus leiab, et see kombinatsioon paljastab haruldaste haigustega patsiendid uuesti. Ebatavalised diagnoosid kitsendavad kogumit kiiresti.
Kolmanda osapoole AI-teenused: Tervishoiutehnoloogia ettevõte saadab patsiendiandmeid USA-põhisele AI-teenusele kliiniliste andmete töötlemiseks. Neis märkmetes olevaid isiklikke ID-sid ei eemaldata enne. Kehtiv ülekandemehhanism puudub.
OCR-ahela lüngad: Kindlustusandja töötleb skannitud PDF-vorme puuetega seotud nõuete jaoks. OCR-tööriist teisendab pildid tekstiks. Kuid see ei käivita väljundil kontrollnumbri teste. Paljud ID-d jäetakse vahele.
OCR sisestab sageli numbri keskele tühikuid või nihutab kriipsu. Lihtne mustri sobitamine katkeb sellise väljundi puhul. Tuvastamine peab töötama OCR-tekstil, mitte ainult puhtal sisendil. Vaadake meie OCR tervishoiu tuvastamise juhendit skannitud dokumentide käsitlemise sammude jaoks.
Kolm tehnilist kohustuslikku elementi
Need kolm elementi moodustavad Taani tervishoiu GDPR-i vastavuse aluse.
Kontrollnumbri testid kogu tekstil: Käivitatakse täielik modulus-11 kontroll kõikidel kandidaatstringidel. Rakendatakse seda nii puhtal tekstil kui ka OCR-väljundil.
Taanikeelesed nimede tuvastamine: Kasutatakse Taani tekstil koolitatud mudelit. spaCy mudel da_core_news on üks valik. Üldine ingliskeelne mudel jätab Taani nimed ja organisatsiooninimed vahele.
De-identifitseerimise andmed: Dokumenteeritakse, mis eemaldati, mis rühmitatuti ja väljundi gruppisuurus. Asutus küsib seda tehnilises vormis, mitte poliitika märkusena.
Tervishoiuandmete juhtumite kulude kohta vaadake meie tervishoiu rikkumise kulude analüüsi.