anonym.legal
Назад к блогуGDPR и соблюдение

Datatilsynet Дании: валидация номера CPR по модулю 11...

67% инструментов NLP пропускают валидацию датского CPR по модулю 11. 14 правоприменительных действий Datatilsynet в сфере здравоохранения в 2024 году.

April 21, 20267 мин чтения
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Датский Datatilsynet вынес 31 решение в области правоприменения GDPR в 2024 году, 14 из которых непосредственно связаны с системами медицинских данных — концентрация, отражающая высокие ставки комплексной национальной инфраструктуры медицинских данных Дании и технические сбои, раз за разом приводящие к раскрытию данных пациентов.

Номер CPR: требование модуля 11

Номер CPR (Det Centrale Personregister-nummer) — 10 цифр, формат DDMMYY-XXXX — кодирует дату рождения (цифры 1–6) и порядковый номер с контрольной цифрой (цифры 7–10). Последняя цифра проверяется с помощью арифметики по модулю 11:

Проверка по модулю 11: умножить цифры 1–9 на веса (4,3,2,7,6,5,4,3,2), суммировать, взять по модулю 11. Если результат равен 0, контрольная цифра = 0. Если результат равен 1, CPR недействителен (для данного префикса нет действительной контрольной цифры). В противном случае контрольная цифра = 11 минус результат.

Это создаёт важное свойство: некоторые шаблоны DDMMYY-XXXX никогда не могут быть действительными номерами CPR (те, где вычисление по модулю 11 даёт 1). Инструменты, ищущие по шаблону 10-значные числа в формате DDMMYY-XXXX без валидации по модулю 11, генерируют ложные срабатывания из строк дат, справочных номеров и кодов счетов-фактур.

67% универсальных инструментов NLP не реализуют проверку CPR по модулю 11 (Datatilsynet 2024). Этот сбой обнаружения — наиболее часто упоминаемая техническая недостаточность в правоприменительных действиях Datatilsynet в области здравоохранения.

Датская экосистема исследований медицинских данных

Датские медицинские реестры — одни из наиболее полных продольных наборов медицинских данных в мире — связаны через номер CPR. CPR позволяет исследователям связывать:

  • Записи о выписке из больниц (с 1977 года)
  • Базу данных рецептов (с 1995 года)
  • Регистр онкологических заболеваний (с 1943 года)
  • Реестр причин смерти (с 1970 года)
  • Данные о диагнозах первичной медицинской помощи (с 1990 года)

Эта связываемость делает датские медицинские исследования мирового класса, однако создаёт риск повторной идентификации, который Datatilsynet воспринимает серьёзно: даже «деидентифицированные» наборы данных, сохраняющие атрибуты, связанные с CPR (возраст, пол, диагноз, год), могут быть повторно идентифицированы в сочетании с другими наборами данных.

Руководство Datatilsynet 2024 года по вторичному использованию медицинских данных требует от организаций, использующих эти реестры, демонстрации:

Технической документации анонимизации: Не политического заявления, а технической документации, точно показывающей, какие идентификаторы были удалены, какие квазиидентификаторы были обобщены и какой уровень k-анонимности был достигнут в выходном наборе данных.

Независимой проверки для исследовательских наборов данных: Для наборов данных с более чем 5 000 человек Datatilsynet рекомендует независимую техническую проверку процедур анонимизации.

Минимизации данных: Охват исследовательского набора данных должен соответствовать задокументированному исследовательскому вопросу. Datatilsynet выявил несколько случаев, когда исследователи использовали полные национальные реестры, тогда как случайная выборка или географически ограниченный набор данных отвечали бы цели исследования.

Конкретные выводы из правоприменения в здравоохранении

14 правоприменительных решений Datatilsynet в области здравоохранения в 2024 году документируют повторяющиеся технические сбои:

Схема дела 1: Больница передаёт деидентифицированный набор данных о пациентах академическому исследовательскому партнёру для обучения ИИ. Набор данных содержит компоненты даты рождения CPR, коды диагнозов и даты лечения. Datatilsynet устанавливает, что комбинация позволяет повторно идентифицировать пациентов с редкими заболеваниями (проблема малого знаменателя — необычные диагнозы существенно сужают идентификацию).

Схема дела 2: Стартап в области медицинских технологий обрабатывает данные датских пациентов через американский API ИИ для поддержки клинической документации. Номера CPR в медицинских заметках передаются на американские серверы без надлежащего механизма передачи и без предварительного обнаружения и удаления CPR.

Схема дела 3: Страховая компания обрабатывает данные медицинских справок для исков о нетрудоспособности. Номера CPR в отсканированных PDF-справках не обнаруживаются пайплайном OCR+извлечение данных компании (OCR преобразует изображение в текст; текст обрабатывается, но без валидации CPR многие номера CPR пропускаются в выводе OCR из-за артефактов форматирования).

Режим сбоя OCR+извлечение особенно распространён в медицинских контекстах, где документы поступают в виде отсканированных изображений. Обнаружение CPR должно работать с текстом, обработанным OCR, который нередко вносит несоответствия форматирования (пробелы внутри номера, ошибки позиции дефиса), нарушающие простой поиск по шаблону.

Для соответствия датским требованиям GDPR в здравоохранении: обнаружение CPR с валидацией по модулю 11 как в чистом тексте, так и в выводе OCR, датский NER (spaCy da_core_news) и техническая документация анонимизации, соответствующая стандартам вторичного использования Datatilsynet 2024 года, — минимальные требования.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.