Данія CPR-номери: посібник з відповідності GDPR
Оновлено для 2026 року
Данський регулятор захисту даних Datatilsynet виніс 31 рішення за GDPR у 2024 році. Чотирнадцять стосувалися медичних даних. Висока частка відображає два факти: Данія управляє великою національною системою охорони здоров'я, а технічні прогалини в цій системі продовжують розкривати записи пацієнтів.
Правило контрольної цифри для CPR-номерів
CPR-номер — це персональний ідентифікатор Данії. Він складається з 10 цифр у форматі ДДММРР-XXXX. Перші шість цифр — дата народження. Останні чотири — код плюс контрольна цифра.
Для контрольної цифри застосовується правило модуля 11:
- Беруть цифри з 1 по 9.
- Кожній присвоюють вагу: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Кожну цифру множать на її вагу. Додають усі результати.
- Ділять на 11. Записують остачу.
- Остача 0 → контрольна цифра дорівнює 0.
- Остача 1 → номер недійсний.
- Остача 2–10 → контрольна цифра = 11 мінус остача.
Це правило важливе для будь-якого інструменту, що сканує CPR-номери. Деякі рядки формату ДДММРР-XXXX ніколи не можуть бути дійсними. Інструменти, що пропускають цей крок, позначають дати, коди рахунків-фактур і довідкові номери як реальні ідентифікатори.
Огляд органу 2024 року показав, що 67% загальних NLP-інструментів пропускають цю перевірку. Ця прогалина є головним технічним порушенням у його медичних справах.
П'ять медичних реєстрів Данії
Данія поєднує медичні дані через п'ять національних реєстрів. Особистий ідентифікатор пов'язує всі п'ять між собою.
- Записи про виписку з лікарні (з 1977 року)
- Дані про рецепти (з 1995 року)
- Реєстр онкологічних захворювань (з 1943 року)
- Реєстр причин смерті (з 1970 року)
- Первинні діагнози (з 1990 року)
Це робить данські медичні дослідження дуже потужними. Але й породжує ризик. Видалення необробленого ідентифікатора недостатньо. Набір даних, що все ще містить вік, стать, діагноз і рік, може повторно ідентифікувати людей — особливо тих, хто має рідкісні захворювання.
Керівництво Datatilsynet 2024 року щодо вторинного використання медичних даних встановлює три вимоги.
Задокументуйте, що ви зробили з даними: перерахуйте, які поля видалили, які округлили або згрупували, та якого розміру груп досягнув результат. Зауваження у вигляді задекларованої політики не відповідає цьому стандарту.
Проведіть незалежний огляд для великих наборів: для наборів даних понад 5 000 осіб орган рекомендує незалежну технічну перевірку кроків деідентифікації.
Відповідайте даними меті: набір даних має відповідати заявленій меті дослідження. Орган виявив випадки, коли команди використовували повні національні реєстри, тоді як підійшла б менша вибірка.
Дивіться наш посібник з виявлення EU national ID про те, як правила контрольних цифр застосовуються до інших европейських форматів ідентифікаторів.
Що виявили справи 2024 року
Серед 14 медичних справ виділяються три поширені типи порушень.
Обмін даними для досліджень: лікарня надсилає деідентифікований набір пацієнтських даних академічному партнеру для навчання ШІ. Набір містить частини дати народження, коди діагнозів і дати лікування. Орган встановлює, що ця комбінація повторно ідентифікує пацієнтів із рідкісними захворюваннями. Незвичні діагнози різко звужують пул.
Сторонні AI-сервіси: медтех-компанія надсилає нотатки про пацієнтів до американського AI-сервісу для роботи з клінічними записами. Особисті ідентифікатори в цих нотатках попередньо не видаляються. Відсутній дійсний механізм передачі.
Прогалини в OCR-конвеєрі: страховик обробляє відскановані PDF-форми для претензій з інвалідності. Його OCR-інструмент конвертує зображення в текст. Але він не виконує перевірку контрольної цифри для вихідних даних. Багато ідентифікаторів пропускається.
OCR часто вставляє пробіли всередині номера або зміщує дефіс. Просте зіставлення шаблону ламається на таких вихідних даних. Виявлення повинно працювати на OCR-тексті, а не лише на чистих вхідних даних. Дивіться наш посібник з виявлення PII при OCR для охорони здоров'я для кроків обробки відсканованих документів.
Три технічні обов'язкові вимоги
Ці три елементи складають основу для дотримання GDPR у датській охороні здоров'я.
Перевірка контрольної цифри для всього тексту: виконувати повну перевірку за модулем 11 для кожного рядку-кандидата. Застосовувати її як до чистого тексту, так і до OCR-вихідних даних.
Виявлення імен на датській мові: використовувати модель, навчену на датському тексті. Одним із варіантів є модель spaCy da_core_news. Загальна англійська модель пропускає данські імена та назви організацій.
Записи про деідентифікацію: задокументувати, що було видалено, що згруповано та якого розміру груп досягнув результат. Орган вимагає це в технічній формі, а не як нотатку щодо політики.
Дані про вартість інцидентів із медичними даними дивіться в нашому аналізі витрат на витоки в охороні здоров'я.