anonym.legal

By · Last updated 2026-05-18

Назад към блогаGDPR и съответствие

Datatilsynet Дания: Валидиране на CPR-номер...

67% от инструментите NLP пропускат датското валидиране на CPR-номер модул-11.

May 18, 20267 мин. четене
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Datatilsynet на Дания издаде 31 решения за принудително изпълнение GDPR през 2024 г., като 14 конкретно засягат системи за здравни данни — концентрация, отразяваща големия залог на всеобхватната национална инфраструктура за здравни данни на Дания и техническите повреди, които многократно излагат данните на пациентите.

CPR-номер: Изискването за модул-11

Номерът на CPR (Det Centrale Personregister-nummer) — 10 цифри, формат DDMMYY-XXXX — кодира датата на раждане (цифри 1-6) и пореден номер с контролна цифра (цифри 7-10). Последната цифра се потвърждава с помощта на аритметика по модул-11:

Проверка на модул-11: умножете цифрите 1-9 по тегла (4,3,2,7,6,5,4,3,2), сумирайте, вземете модул 11. Ако резултатът е 0, контролната цифра = 0. Ако резултатът е 1, CPR е невалиден (няма валидна контролна цифра за този префикс). В противен случай, контролна цифра = 11 минус резултат.

Това създава важното свойство, че някои модели DDMMYY-XXXX никога не могат да бъдат валидни CPR числа (тези, при които изчислението по модул 11 дава 1). Инструменти, които съвпадат по шаблон с 10-цифрени числа, форматирани като DDMMYY-XXXX без проверка на модул-11, генерират фалшиви положителни резултати от низове с дати, референтни номера и кодове на фактури.

67% от генеричните NLP инструменти нямат изпълнение на CPR модул-11 (Datatilsynet 2024). Тази грешка при откриване е най-често цитираната техническа неадекватност в действията на Datatilsynet за правоприлагане в здравеопазването.

Датска екосистема за изследване на здравни данни

Здравните регистри на Дания — сред най-пълните надлъжни масиви от здравни данни в света — са свързани чрез CPR номера. CPR позволява на изследователите да свържат:

  • Изписване от болница (от 1977 г.)
  • База данни с рецепти (от 1995 г.)
  • Раков регистър (от 1943 г.)
  • Регистър на причините за смъртта (от 1970 г.)
  • Данни за първичната диагноза (от 1990 г.)

Тази възможност за свързване прави датските здравни изследвания от световна класа, но създава риск от повторна идентификация, който Datatilsynet приема сериозно: дори „деидентифицирани“ набори от данни, които запазват свързани с CPR атрибути (възраст, пол, диагноза, година), могат да бъдат повторно идентифицирани в комбинация с други набори от данни.

Ръководството на Datatilsynet от 2024 г. относно използването на вторични здравни данни изисква организациите, използващи тези регистри, да демонстрират:

Документация за техническа анонимност: Не е изявление за политика, а техническа документация, показваща точно кои идентификатори са премахнати, кои квазиидентификатори са обобщени и какво ниво на k-анонимност е постигнато в изходния набор от данни.

Валидиране от трета страна за набори от изследователски данни: За набори от изследователски данни с повече от 5000 лица Datatilsynet препоръчва независим технически преглед на процедурите за анонимизиране.

**Минимизиране на данните: ** Обхватът на набора от данни за изследване трябва да съответства на документирания въпрос за изследване. Datatilsynet е открил множество случаи, при които изследователите са използвали пълни национални регистри, когато произволна извадка или географски ограничен набор от данни биха послужили за изследователската цел.

Специфични констатации за правоприлагане в здравеопазването

14-те решения на Datatilsynet за правоприлагане в здравеопазването през 2024 г. документират повтарящи се технически повреди:

**Случай 1: ** Болницата споделя деидентифициран набор от данни за пациенти с академичен изследователски партньор за обучение на AI. Наборът от данни съдържа компоненти за дата на раждане на CPR, диагностични кодове и дати на лечение. Datatilsynet установява, че комбинацията позволява повторна идентификация на пациенти с редки заболявания (проблем с малкия знаменател — необичайни диагнози стесняват значително идентификацията).

Случай 2: Стартиране на здравни технологии обработва датски данни за пациенти чрез базиран в САЩ AI API за поддръжка на клинична документация. CPR номерата в медицинските бележки се предават на сървъри в САЩ без подходящ механизъм за прехвърляне и без предварително откриване и премахване на CPR.

Случай модел 3: Застрахователната компания обработва данни от медицинско свидетелство за искове за инвалидност. CPR номерата в сканираните PDF сертификати не се откриват от компанията OCR-plus-extraction pipeline (OCR преобразува изображението в текст; текстът се обработва, но без CPR валидиране, много CPR номера се пропускат в OCR изхода поради артефакти при форматиране).

Режимът на неуспешно извличане OCR-plus е особено често срещан в контекста на здравеопазването, където документите се получават като сканирани изображения. Откриването на CPR трябва да работи върху текст, обработен с OCR, който често въвежда несъответствия във форматирането (вмъкнати интервали в средата на числото, грешки в позицията на тире), които нарушават простото съпоставяне на шаблони.

За съответствие със GDPR в датското здравеопазване: CPR откриване с валидиране на модул-11 както в чист текст, така и в обработен с OCR изход, NER на датски език (spaCy da_core_news) и техническа документация за анонимизиране, отговаряща на стандартите за вторична употреба на Datatilsynet от 2024 г., са минималните изисквания.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.