By · Last updated 2026-06-05

Späť na blogGDPR a Dodržiavanie

Dansko CPR: Validácia modulus-11 pre GDPR

67 % nastrojov NLP prepasuje validaciu modulus-11 dánskeho cisla CPR. 14 krokov presadzovania vo zdravotníctve Datatilsynetu v roku 2024. Sekundarné pouzivanie zdravotnych udajov.

June 5, 20267 min čítania
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Dánske cisla CPR: Prirucka pre sülad s GDPR

Aktualizovane pre rok 2026

Dánsky dozorca nad datami, Datatilsynet, vydal v roku 2024 31 rozhodnutí GDPR. Strnást sa tykalo zdravotnickych dat. Tento vysoky podiel odrazá dve skutocnosti: Dánsko prevádzkuje velký národny zdravotny systém a technické medzery v tomto systéme neustale odhaluju zaznamov pacientov.

Pravidlo kontrolnej cislice pre cisla CPR

Cislo CPR je osobny identifikátor Dánska. Je to 10 císlic vo formáte DDMMYY-XXXX. Prvych sest císlic je dátum narodenia. Posledné stiri su kód plus kontrolná cislica.

Kontrolná cislica pouzíva pravidlo modulus-11:

  1. Vezmite cislice 1 az 9.
  2. Kazdy priradite váhu: 4, 3, 2, 7, 6, 5, 4, 3, 2.
  3. Kazdu cislicu vynasibte jej vahom. Sectajte vsetky vysledky.
  4. Vydeľte 11. Zaznamenajte zvysok.
  5. Zvysok 0 - kontrolná cislica je 0.
  6. Zvysok 1 - cislo nie je platné.
  7. Zvysok 2–10 - kontrolná cislica je 11 minus zvysok.

Toto pravidlo je dolezite pre kazdy nástroj, ktory skenuje cisla CPR. Niektoré retazce DDMMYY-XXXX nemôzu byt nikdy platné. Nástroje, ktore tento krok preskocía, oznacuju dátumy, faktúrové kódy a referecné cisla ako skutocné ID.

Prehled úradu za rok 2024 zistil, ze 67 % generickych nastrojov NLP túto kontrolu preskocuje. Táto medzera je hlavnym technickym zlyhaním v jeho zdravotnickych prípadoch.

Paet zdravotnych registrov Dánska

Dánsko prepája zdravotné udaje napriec piatimi národnymi registrami. Osobny identifikátor ich spaja vsetky.

  • Záznamy o prepustení z nemocnice (od roku 1977)
  • Udaje o predpise (od roku 1995)
  • Register rakoviny (od roku 1943)
  • Register prícin smrti (od roku 1970)
  • Diagnózy primárnej zdravotnej starostlivosti (od roku 1990)

To robí dánsky zdravotny výzkum velmi silnym. Zároveň to vytvara riziko. Odstránenie surového ID nestací. Dataset, ktory stale obsahuje vek, pohlavie, diagnózu a rok, môze opätovne odhalit ľudí — najmä tych so vzácnymi stavmi.

Usmernenie Datatilsynetu z roku 2024 o sekundarnom pouzití zdravotnych udajov stanovuje tri požiadavky.

Zaznamenat co ste s datami urobili: Uvést ktoré polia ste odstránili, ktore zaokrúhlili alebo zoskupili a aku velkost skupiny výstup dosahuje. Politická poznámka táto normu nespña.

Získat vonkajsiu kontrolu pre velké sady: Pre datasety s viac ako 5 000 ludmi úrad odporuca nezavislu technickú revíziu krokov de-identifikácie.

Pripojiť udaje k otázke: Dataset musí zodpovedat stanovenemu výskumnemu cielu. Úrad nasiel prípady, kde tímy pouzili úplne národné registre, aj ked postacil mensi vzorka.

Pozrite si nasu prirucku pre detekciu národneho ID EÚ, kde sa rieši, ako pravidla kontrolnych císlic platia pre iné európske formáty ID.

Co zistili prípady roku 2024

Strnást zdravotnickych prípadov zdielá tri spolocné typy zlyhania.

Zdielanie výskumnych dat: Nemocnica posiela de-identifikovaný dataset pacientov akademickemu partnerovi na trénovanie AI. Sada obsahuje casti dátumu narodenia, kódy diagnóz a dátumy lieDb. Úrad zistí, ze tato zmes opätovne odhaluje pacientov so vzácnymi chorobami. Neobvyklé diagnózy rýchlo zúzuju skupinu.

Sluzby AI tretich stran: Zdravotnícka technologická firma posiela poznámky pacientov americkej sluzbe AI na pracu s klinickymi zaznamami. Osobné ID v tych poznámkach nie su predtym odstránené. Nie je zaveden platný mechanizmus prenosu.

Medzery v spracovacích linhach OCR: Poistovña spracovava naskenované formuláre PDF pre nároky na invaliditu. Jej nástroj OCR konvertuje obrazky na text. Nespústa vsak kontroly kontrolnych císlic na výstupe. Mnoho ID sa prepasuje.

OCR casto vkladá medzery uprostred cisla alebo presuvá pomlcku. Jednoduche porovnávanie vzoru na takomto výstupe zlyháva. Detekcia musi fungovat na texte OCR, nielen na cistom vstupe. Kroky na spracovanie naskenovaných dokumentov nájdete v nasej prirucke pre detekciu OÚ v OCR zdravotníctve.

Tri technické nevyhnutnosti

Tieto tri prvky tvoria základ pre sülad dánskeho zdravotníctva s GDPR.

Kontroly kontrolnych císlic na vsetkych textoch: Spuste uplnú kontrolu modulus-11 na kazdom retazci kandidáta. Aplikujte ju na cisty text aj výstup OCR rovnako.

Detekcia mien v dánstine: Pouzite model trénovaný na dánskom texte. Model spaCy da_core_news je jednou z mozností. Genericky anglicky model prepasáva dánske mena a názvy organizácií.

Záznamy de-identifikácie: Zaznamenat co bolo odstránené, co bolo zoskupené a velkost skupiny výstupu. Úrad to vyzaduje v technickej forme, nie ako politickú poznámku.

Udaje o nákladoch incidentov v oblasti zdravotnickych dat nájdete v nasej anályze nákladov narusenia zdravotníctva.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.