anonym.legal
Назад към блогаGDPR и съответствие

Datatilsynet Дания: Валидиране на CPR-номер...

67% от инструментите NLP пропускат датското валидиране на CPR-номер модул-11.

April 21, 20267 мин. четене
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Datatilsynet на Дания издаде 31 решения за принудително изпълнение GDPR през 2024 г., като 14 конкретно засягат системи за здравни данни — концентрация, отразяваща големия залог на всеобхватната национална инфраструктура за здравни данни на Дания и техническите повреди, които многократно излагат данните на пациентите.

CPR-номер: Изискването за модул-11

Номерът на CPR (Det Centrale Personregister-nummer) — 10 цифри, формат DDMMYY-XXXX — кодира датата на раждане (цифри 1-6) и пореден номер с контролна цифра (цифри 7-10). Последната цифра се потвърждава с помощта на аритметика по модул-11:

Проверка на модул-11: умножете цифрите 1-9 по тегла (4,3,2,7,6,5,4,3,2), сумирайте, вземете модул 11. Ако резултатът е 0, контролната цифра = 0. Ако резултатът е 1, CPR е невалиден (няма валидна контролна цифра за този префикс). В противен случай, контролна цифра = 11 минус резултат.

Това създава важното свойство, че някои модели DDMMYY-XXXX никога не могат да бъдат валидни CPR числа (тези, при които изчислението по модул 11 дава 1). Инструменти, които съвпадат по шаблон с 10-цифрени числа, форматирани като DDMMYY-XXXX без проверка на модул-11, генерират фалшиви положителни резултати от низове с дати, референтни номера и кодове на фактури.

67% от генеричните NLP инструменти нямат изпълнение на CPR модул-11 (Datatilsynet 2024). Тази грешка при откриване е най-често цитираната техническа неадекватност в действията на Datatilsynet за правоприлагане в здравеопазването.

Датска екосистема за изследване на здравни данни

Здравните регистри на Дания — сред най-пълните надлъжни масиви от здравни данни в света — са свързани чрез CPR номера. CPR позволява на изследователите да свържат:

  • Изписване от болница (от 1977 г.)
  • База данни с рецепти (от 1995 г.)
  • Раков регистър (от 1943 г.)
  • Регистър на причините за смъртта (от 1970 г.)
  • Данни за първичната диагноза (от 1990 г.)

Тази възможност за свързване прави датските здравни изследвания от световна класа, но създава риск от повторна идентификация, който Datatilsynet приема сериозно: дори „деидентифицирани“ набори от данни, които запазват свързани с CPR атрибути (възраст, пол, диагноза, година), могат да бъдат повторно идентифицирани в комбинация с други набори от данни.

Ръководството на Datatilsynet от 2024 г. относно използването на вторични здравни данни изисква организациите, използващи тези регистри, да демонстрират:

Документация за техническа анонимност: Не е изявление за политика, а техническа документация, показваща точно кои идентификатори са премахнати, кои квазиидентификатори са обобщени и какво ниво на k-анонимност е постигнато в изходния набор от данни.

Валидиране от трета страна за набори от изследователски данни: За набори от изследователски данни с повече от 5000 лица Datatilsynet препоръчва независим технически преглед на процедурите за анонимизиране.

**Минимизиране на данните: ** Обхватът на набора от данни за изследване трябва да съответства на документирания въпрос за изследване. Datatilsynet е открил множество случаи, при които изследователите са използвали пълни национални регистри, когато произволна извадка или географски ограничен набор от данни биха послужили за изследователската цел.

Специфични констатации за правоприлагане в здравеопазването

14-те решения на Datatilsynet за правоприлагане в здравеопазването през 2024 г. документират повтарящи се технически повреди:

**Случай 1: ** Болницата споделя деидентифициран набор от данни за пациенти с академичен изследователски партньор за обучение на AI. Наборът от данни съдържа компоненти за дата на раждане на CPR, диагностични кодове и дати на лечение. Datatilsynet установява, че комбинацията позволява повторна идентификация на пациенти с редки заболявания (проблем с малкия знаменател — необичайни диагнози стесняват значително идентификацията).

Случай 2: Стартиране на здравни технологии обработва датски данни за пациенти чрез базиран в САЩ AI API за поддръжка на клинична документация. CPR номерата в медицинските бележки се предават на сървъри в САЩ без подходящ механизъм за прехвърляне и без предварително откриване и премахване на CPR.

Случай модел 3: Застрахователната компания обработва данни от медицинско свидетелство за искове за инвалидност. CPR номерата в сканираните PDF сертификати не се откриват от компанията OCR-plus-extraction pipeline (OCR преобразува изображението в текст; текстът се обработва, но без CPR валидиране, много CPR номера се пропускат в OCR изхода поради артефакти при форматиране).

Режимът на неуспешно извличане OCR-plus е особено често срещан в контекста на здравеопазването, където документите се получават като сканирани изображения. Откриването на CPR трябва да работи върху текст, обработен с OCR, който често въвежда несъответствия във форматирането (вмъкнати интервали в средата на числото, грешки в позицията на тире), които нарушават простото съпоставяне на шаблони.

За съответствие със GDPR в датското здравеопазване: CPR откриване с валидиране на модул-11 както в чист текст, така и в обработен с OCR изход, NER на датски език (spaCy da_core_news) и техническа документация за анонимизиране, отговаряща на стандартите за вторична употреба на Datatilsynet от 2024 г., са минималните изисквания.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.