Датские CPR-номера: руководство по соответствию GDPR
Обновлено для 2026 года
Датский регулятор Datatilsynet вынес 31 решение по GDPR в 2024 году. Четырнадцать из них касались данных здравоохранения. Столь высокая доля объясняется двумя факторами: Дания располагает масштабной национальной системой здравоохранения, а технические пробелы в этой системе продолжают создавать утечки данных пациентов.
Правило контрольной цифры для CPR-номеров
CPR-номер — личный идентификатор Дании. Он состоит из 10 цифр в формате DDMMYY-XXXX. Первые шесть цифр — дата рождения. Последние четыре — код и контрольная цифра.
Контрольная цифра определяется по правилу модуля 11:
- Берутся цифры с 1 по 9.
- Каждой присваивается вес: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Каждая цифра умножается на свой вес; все результаты суммируются.
- Сумма делится на 11; фиксируется остаток.
- Остаток 0 → контрольная цифра равна 0.
- Остаток 1 → номер недействителен.
- Остаток 2–10 → контрольная цифра = 11 минус остаток.
Это правило критически важно для любого инструмента сканирования CPR-номеров. Некоторые строки в формате DDMMYY-XXXX заведомо не могут быть действительными. Инструменты, пропускающие данную проверку, ошибочно помечают даты, коды счетов-фактур и справочные номера как реальные идентификаторы.
Проверка 2024 года показала: 67% универсальных NLP-инструментов не выполняют эту проверку. Данный пробел — главная техническая ошибка в делах ведомства, связанных со здравоохранением.
Пять реестров здоровья Дании
Дания связывает медицинские данные через пять национальных реестров. Личный идентификатор объединяет их все.
- Реестр выписок из больниц (с 1977 года)
- Данные о рецептах (с 1995 года)
- Онкологический реестр (с 1943 года)
- Реестр причин смерти (с 1970 года)
- Диагнозы первичной медицинской помощи (с 1990 года)
Это делает датские медицинские исследования исключительно информативными. Но одновременно создаёт риск: простого удаления исходного идентификатора недостаточно. Набор данных, сохраняющий возраст, пол, диагноз и год, способен повторно идентифицировать людей — особенно тех, кто страдает редкими заболеваниями.
Руководство Datatilsynet 2024 года о вторичном использовании медицинских данных устанавливает три требования.
Документирование действий с данными: необходимо перечислить удалённые поля, округлённые или сгруппированные показатели, а также достигнутый размер группы в итоговом наборе. Политическая заметка не удовлетворяет этому стандарту.
Независимая проверка для больших наборов: для наборов данных более 5 000 человек регулятор рекомендует независимую техническую проверку шагов деидентификации.
Соответствие данных исследовательскому вопросу: набор данных должен соответствовать заявленной цели исследования. Регулятор выявил случаи, когда исследовательские группы использовали полные национальные реестры там, где достаточно было меньшей выборки.
О применении правил контрольных цифр к другим европейским форматам идентификаторов — в нашем руководстве по обнаружению национальных ID в ЕС.
Что выявили дела 2024 года
В 14 делах в сфере здравоохранения прослеживаются три типичных вида нарушений.
Совместное использование данных в исследованиях: больница передаёт деидентифицированный набор данных пациентов академическому партнёру для обучения ИИ. Набор содержит фрагменты дат рождения, коды диагнозов и даты лечения. Регулятор устанавливает, что эта совокупность повторно раскрывает пациентов с редкими заболеваниями: нетипичные диагнозы быстро сужают круг лиц.
Сторонние ИИ-сервисы: медицинская технологическая компания направляет заметки о пациентах в американский ИИ-сервис для работы с клиническими записями. Личные идентификаторы в этих заметках предварительно не удалены. Действующий механизм передачи данных отсутствует.
Пробелы в конвейерах OCR: страховщик обрабатывает отсканированные PDF-формы по инвалидности. Инструмент OCR конвертирует изображения в текст, однако не выполняет проверку контрольных цифр на выходе. Значительная часть идентификаторов остаётся необнаруженной.
OCR нередко вставляет пробелы внутри номера или смещает дефис. Простое сопоставление с шаблоном ломается на таком выводе. Обнаружение должно работать с текстом OCR, а не только с чистыми входными данными. Шаги для работы со сканированными документами — в нашем руководстве по обнаружению персональных данных в OCR-документах здравоохранения.
Три обязательных технических требования
Эти три элемента составляют основу для соответствия датским требованиям GDPR в здравоохранении.
Проверка контрольных цифр во всём тексте: полная проверка по модулю 11 должна применяться к каждой строке-кандидату — как к чистому тексту, так и к выводу OCR.
Обнаружение имён на датском языке: необходима модель, обученная на датских текстах. Модель spaCy da_core_news — один из вариантов. Универсальная английская модель пропускает датские имена собственные и названия организаций.
Записи о деидентификации: необходимо задокументировать, что было удалено, что сгруппировано и каков размер групп в итоговых данных. Регулятор требует технической формы, а не политической заметки.
Данные о стоимости инцидентов с медицинскими данными — в нашем анализе затрат на утечки в здравоохранении.