Datatilsynet на Дания издаде 31 решения за принудително изпълнение GDPR през 2024 г., като 14 конкретно засягат системи за здравни данни — концентрация, отразяваща големия залог на всеобхватната национална инфраструктура за здравни данни на Дания и техническите повреди, които многократно излагат данните на пациентите.
CPR-номер: Изискването за модул-11
Номерът на CPR (Det Centrale Personregister-nummer) — 10 цифри, формат DDMMYY-XXXX — кодира датата на раждане (цифри 1-6) и пореден номер с контролна цифра (цифри 7-10). Последната цифра се потвърждава с помощта на аритметика по модул-11:
Проверка на модул-11: умножете цифрите 1-9 по тегла (4,3,2,7,6,5,4,3,2), сумирайте, вземете модул 11. Ако резултатът е 0, контролната цифра = 0. Ако резултатът е 1, CPR е невалиден (няма валидна контролна цифра за този префикс). В противен случай, контролна цифра = 11 минус резултат.
Това създава важното свойство, че някои модели DDMMYY-XXXX никога не могат да бъдат валидни CPR числа (тези, при които изчислението по модул 11 дава 1). Инструменти, които съвпадат по шаблон с 10-цифрени числа, форматирани като DDMMYY-XXXX без проверка на модул-11, генерират фалшиви положителни резултати от низове с дати, референтни номера и кодове на фактури.
67% от генеричните NLP инструменти нямат изпълнение на CPR модул-11 (Datatilsynet 2024). Тази грешка при откриване е най-често цитираната техническа неадекватност в действията на Datatilsynet за правоприлагане в здравеопазването.
Датска екосистема за изследване на здравни данни
Здравните регистри на Дания — сред най-пълните надлъжни масиви от здравни данни в света — са свързани чрез CPR номера. CPR позволява на изследователите да свържат:
- Изписване от болница (от 1977 г.)
- База данни с рецепти (от 1995 г.)
- Раков регистър (от 1943 г.)
- Регистър на причините за смъртта (от 1970 г.)
- Данни за първичната диагноза (от 1990 г.)
Тази възможност за свързване прави датските здравни изследвания от световна класа, но създава риск от повторна идентификация, който Datatilsynet приема сериозно: дори „деидентифицирани“ набори от данни, които запазват свързани с CPR атрибути (възраст, пол, диагноза, година), могат да бъдат повторно идентифицирани в комбинация с други набори от данни.
Ръководството на Datatilsynet от 2024 г. относно използването на вторични здравни данни изисква организациите, използващи тези регистри, да демонстрират:
Документация за техническа анонимност: Не е изявление за политика, а техническа документация, показваща точно кои идентификатори са премахнати, кои квазиидентификатори са обобщени и какво ниво на k-анонимност е постигнато в изходния набор от данни.
Валидиране от трета страна за набори от изследователски данни: За набори от изследователски данни с повече от 5000 лица Datatilsynet препоръчва независим технически преглед на процедурите за анонимизиране.
**Минимизиране на данните: ** Обхватът на набора от данни за изследване трябва да съответства на документирания въпрос за изследване. Datatilsynet е открил множество случаи, при които изследователите са използвали пълни национални регистри, когато произволна извадка или географски ограничен набор от данни биха послужили за изследователската цел.
Специфични констатации за правоприлагане в здравеопазването
14-те решения на Datatilsynet за правоприлагане в здравеопазването през 2024 г. документират повтарящи се технически повреди:
**Случай 1: ** Болницата споделя деидентифициран набор от данни за пациенти с академичен изследователски партньор за обучение на AI. Наборът от данни съдържа компоненти за дата на раждане на CPR, диагностични кодове и дати на лечение. Datatilsynet установява, че комбинацията позволява повторна идентификация на пациенти с редки заболявания (проблем с малкия знаменател — необичайни диагнози стесняват значително идентификацията).
Случай 2: Стартиране на здравни технологии обработва датски данни за пациенти чрез базиран в САЩ AI API за поддръжка на клинична документация. CPR номерата в медицинските бележки се предават на сървъри в САЩ без подходящ механизъм за прехвърляне и без предварително откриване и премахване на CPR.
Случай модел 3: Застрахователната компания обработва данни от медицинско свидетелство за искове за инвалидност. CPR номерата в сканираните PDF сертификати не се откриват от компанията OCR-plus-extraction pipeline (OCR преобразува изображението в текст; текстът се обработва, но без CPR валидиране, много CPR номера се пропускат в OCR изхода поради артефакти при форматиране).
Режимът на неуспешно извличане OCR-plus е особено често срещан в контекста на здравеопазването, където документите се получават като сканирани изображения. Откриването на CPR трябва да работи върху текст, обработен с OCR, който често въвежда несъответствия във форматирането (вмъкнати интервали в средата на числото, грешки в позицията на тире), които нарушават простото съпоставяне на шаблони.
За съответствие със GDPR в датското здравеопазване: CPR откриване с валидиране на модул-11 както в чист текст, така и в обработен с OCR изход, NER на датски език (spaCy da_core_news) и техническа документация за анонимизиране, отговаряща на стандартите за вторична употреба на Datatilsynet от 2024 г., са минималните изисквания.
Източници: