Dánske cisla CPR: Prirucka pre sülad s GDPR
Aktualizovane pre rok 2026
Dánsky dozorca nad datami, Datatilsynet, vydal v roku 2024 31 rozhodnutí GDPR. Strnást sa tykalo zdravotnickych dat. Tento vysoky podiel odrazá dve skutocnosti: Dánsko prevádzkuje velký národny zdravotny systém a technické medzery v tomto systéme neustale odhaluju zaznamov pacientov.
Pravidlo kontrolnej cislice pre cisla CPR
Cislo CPR je osobny identifikátor Dánska. Je to 10 císlic vo formáte DDMMYY-XXXX. Prvych sest císlic je dátum narodenia. Posledné stiri su kód plus kontrolná cislica.
Kontrolná cislica pouzíva pravidlo modulus-11:
- Vezmite cislice 1 az 9.
- Kazdy priradite váhu: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Kazdu cislicu vynasibte jej vahom. Sectajte vsetky vysledky.
- Vydeľte 11. Zaznamenajte zvysok.
- Zvysok 0 - kontrolná cislica je 0.
- Zvysok 1 - cislo nie je platné.
- Zvysok 2–10 - kontrolná cislica je 11 minus zvysok.
Toto pravidlo je dolezite pre kazdy nástroj, ktory skenuje cisla CPR. Niektoré retazce DDMMYY-XXXX nemôzu byt nikdy platné. Nástroje, ktore tento krok preskocía, oznacuju dátumy, faktúrové kódy a referecné cisla ako skutocné ID.
Prehled úradu za rok 2024 zistil, ze 67 % generickych nastrojov NLP túto kontrolu preskocuje. Táto medzera je hlavnym technickym zlyhaním v jeho zdravotnickych prípadoch.
Paet zdravotnych registrov Dánska
Dánsko prepája zdravotné udaje napriec piatimi národnymi registrami. Osobny identifikátor ich spaja vsetky.
- Záznamy o prepustení z nemocnice (od roku 1977)
- Udaje o predpise (od roku 1995)
- Register rakoviny (od roku 1943)
- Register prícin smrti (od roku 1970)
- Diagnózy primárnej zdravotnej starostlivosti (od roku 1990)
To robí dánsky zdravotny výzkum velmi silnym. Zároveň to vytvara riziko. Odstránenie surového ID nestací. Dataset, ktory stale obsahuje vek, pohlavie, diagnózu a rok, môze opätovne odhalit ľudí — najmä tych so vzácnymi stavmi.
Usmernenie Datatilsynetu z roku 2024 o sekundarnom pouzití zdravotnych udajov stanovuje tri požiadavky.
Zaznamenat co ste s datami urobili: Uvést ktoré polia ste odstránili, ktore zaokrúhlili alebo zoskupili a aku velkost skupiny výstup dosahuje. Politická poznámka táto normu nespña.
Získat vonkajsiu kontrolu pre velké sady: Pre datasety s viac ako 5 000 ludmi úrad odporuca nezavislu technickú revíziu krokov de-identifikácie.
Pripojiť udaje k otázke: Dataset musí zodpovedat stanovenemu výskumnemu cielu. Úrad nasiel prípady, kde tímy pouzili úplne národné registre, aj ked postacil mensi vzorka.
Pozrite si nasu prirucku pre detekciu národneho ID EÚ, kde sa rieši, ako pravidla kontrolnych císlic platia pre iné európske formáty ID.
Co zistili prípady roku 2024
Strnást zdravotnickych prípadov zdielá tri spolocné typy zlyhania.
Zdielanie výskumnych dat: Nemocnica posiela de-identifikovaný dataset pacientov akademickemu partnerovi na trénovanie AI. Sada obsahuje casti dátumu narodenia, kódy diagnóz a dátumy lieDb. Úrad zistí, ze tato zmes opätovne odhaluje pacientov so vzácnymi chorobami. Neobvyklé diagnózy rýchlo zúzuju skupinu.
Sluzby AI tretich stran: Zdravotnícka technologická firma posiela poznámky pacientov americkej sluzbe AI na pracu s klinickymi zaznamami. Osobné ID v tych poznámkach nie su predtym odstránené. Nie je zaveden platný mechanizmus prenosu.
Medzery v spracovacích linhach OCR: Poistovña spracovava naskenované formuláre PDF pre nároky na invaliditu. Jej nástroj OCR konvertuje obrazky na text. Nespústa vsak kontroly kontrolnych císlic na výstupe. Mnoho ID sa prepasuje.
OCR casto vkladá medzery uprostred cisla alebo presuvá pomlcku. Jednoduche porovnávanie vzoru na takomto výstupe zlyháva. Detekcia musi fungovat na texte OCR, nielen na cistom vstupe. Kroky na spracovanie naskenovaných dokumentov nájdete v nasej prirucke pre detekciu OÚ v OCR zdravotníctve.
Tri technické nevyhnutnosti
Tieto tri prvky tvoria základ pre sülad dánskeho zdravotníctva s GDPR.
Kontroly kontrolnych císlic na vsetkych textoch: Spuste uplnú kontrolu modulus-11 na kazdom retazci kandidáta. Aplikujte ju na cisty text aj výstup OCR rovnako.
Detekcia mien v dánstine: Pouzite model trénovaný na dánskom texte. Model spaCy da_core_news je jednou z mozností. Genericky anglicky model prepasáva dánske mena a názvy organizácií.
Záznamy de-identifikácie: Zaznamenat co bolo odstránené, co bolo zoskupené a velkost skupiny výstupu. Úrad to vyzaduje v technickej forme, nie ako politickú poznámku.
Udaje o nákladoch incidentov v oblasti zdravotnickych dat nájdete v nasej anályze nákladov narusenia zdravotníctva.