Дански CPR броеви: Водич за усогласеност со GDPR
Ажурирано за 2026 година
Данскиот надзорен орган за заштита на податоци, Datatilsynet, издал 31 одлука по GDPR во 2024 година. Четиринаесет се однесувале на здравствени податоци. Тој висок удел ги одразува два факта: Данска управува со голем национален здравствен систем и техничките јазови во тој систем продолжуваат да ги изложуваат записите на пациентите.
Правилото за проверна цифра на CPR броеви
CPR бројот е личниот идентификатор на Данска. Тој е 10 цифри во формат DDMMYY-XXXX. Првите шест цифри се датумот на раѓање. Последните четири се шифра плус проверна цифра.
Проверната цифра користи правило по модул 11:
- Се земаат цифрите 1 до 9.
- На секоја се доделува тежина: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Секоја цифра се множи со нејзината тежина. Сите резултати се собираат.
- Се дели со 11. Се забележува остатокот.
- Остаток 0 → проверната цифра е 0.
- Остаток 1 → бројот не е важечки.
- Остаток 2–10 → проверната цифра е 11 минус остатокот.
Ова правило е важно за секоја алатка која скенира за CPR броеви. Некои низи DDMMYY-XXXX никогаш не можат да бидат важечки. Алатките кои ја прескокнуваат оваа чекор означуваат датуми, шифри на фактури и референтни броеви како вистински идентификатори.
Прегледот на органот за 2024 година утврди дека 67% од генеричките NLP алатки ја прескокнуваат оваа проверка. Тој јаз е главниот технички неуспех во неговите случаи во здравствената заштита.
Петте здравствени регистри на Данска
Данска ги поврзува здравствените податоци низ пет национални регистри. Личниот идентификатор ги поврзува сите пет.
- Записи за отпуштање од болница (од 1977 година)
- Податоци за рецепти (од 1995 година)
- Регистар на рак (од 1943 година)
- Регистар на причини за смртта (од 1970 година)
- Дијагнози во примарната здравствена заштита (од 1990 година)
Ова го прави данското здравствено истражување многу силно. Исто така создава ризик. Отстранувањето на суровиот идентификатор не е доволно. База на податоци која сè уште содржи возраст, пол, дијагноза и година може повторно да ги изложи луѓето — особено оние со ретки состојби.
Упатството на Datatilsynet за 2024 година за секундарна употреба на здравствени податоци поставува три барања.
Запишете го она што сте го направиле со податоците: Наведете кои полиња сте ги отстраниле, кои сте ги заокружиле или групирале и какви резултати за групна големина дава резултатот. Политичка белешка не го исполнува овој стандард.
Добијте надворешен преглед за големи множества: За бази на податоци со повеќе од 5.000 луѓе, органот препорачува независен технички преглед на чекорите за деидентификација.
Усогласете ги податоците со прашањето: Базата на податоци мора да одговара на наведената цел на истражувањето. Органот пронашол случаи каде тимовите користеле полни национални регистри кога помал примерок би бил доволен.
Што открија случаите за 2024 година
Четиринаесетте случаи во здравствената заштита споделуваат три вообичаени типови неуспеси.
Споделување на истражувачки податоци: Болница испраќа деидентификувана база на податоци за пациенти до академски партнер за обука на ВИ. Множеството содржи делови од датумот на раѓање, дијагностички шифри и датуми на третман. Органот утврдува дека оваа комбинација ги повторно изложува пациентите со ретки болести. Невообичаените дијагнози брзо го стеснуваат кругот.
Услуги на ВИ на трети страни: Здравствена технолошка фирма испраќа белешки за пациенти до американска услуга за ВИ за работа со клинички записи. Личните идентификатори во тие белешки не се отстрануваат прво. Нема важечки механизам за пренос.
Јазови во OCR процесирачкиот ланец: Осигурувач обработува скенирани PDF формулари за барања за инвалидност. Неговата OCR алатка ги претвора сликите во текст. Но не извршува проверки на проверната цифра на излезот. Многу идентификатори се пропуштаат.
OCR честопати вметнува празни места во средината на бројот или го поместува цртичката. Простото совпаѓање на шаблони не работи со тој излез. Откривањето мора да работи на OCR текст, не само на чист влез.
Три технички задолжителни барања
Овие три елементи ја формираат основата за усогласеност на данската здравствена заштита со GDPR.
Проверки на проверната цифра на сиот текст: Извршете ја целосната проверка по модул 11 на секоја кандидатска низа. Применете ја на чист текст и на OCR излез подеднакво.
Откривање на имиња на дански јазик: Користете модел обучен на дански текст. Моделот spaCy da_core_news е една опција. Генерички англиски модел пропушта дански имиња и имиња на организации.
Записи за деидентификација: Запишете го она што е отстрането, она што е групирано и групната големина на излезот. Органот бара ова во техничка форма, не како политичка белешка.