By · Last updated 2026-05-18

Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Datatilsynet Tanska: CPR-numeron Modulus-11...

67% NLP-työkaluista ei tunnista tanskalaisen CPR-numeron modulus-11 validointia. Datatilsynetin 14 terveydenhuollon valvontatoimenpidettä vuonna 2024.

May 18, 20267 min lukuaika
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Tanskan Datatilsynet antoi 31 GDPR-valvontapäätöstä vuonna 2024, joista 14 liittyi erityisesti terveydenhuollon tietojärjestelmiin — keskittyminen heijastaa Tanskan kattavan kansallisen terveysdatan infrastruktuurin suuria panoksia ja teknisiä epäonnistumisia, jotka toistuvasti paljastavat potilastietoja.

CPR-numero: Modulus-11-vaatimus

CPR-numero (Det Centrale Personregister-nummer) — 10 numeroa, muoto DDMMYY-XXXX — koodaa syntymäpäivän (numerot 1-6) ja sekvenssinumeron tarkistusnumerolla (numerot 7-10). Viimeinen numero validoidaan modulus-11-aritmetiikan avulla:

Modulus-11 tarkistus: kerro numerot 1-9 painoilla (4,3,2,7,6,5,4,3,2), summa, ota modulo 11. Jos tulos on 0, tarkistusnumero = 0. Jos tulos on 1, CPR on virheellinen (tälle etuliitteelle ei ole voimassa olevaa tarkistusnumeroa). Muuten, tarkistusnumero = 11 miinus tulos.

Tämä luo tärkeän ominaisuuden, että jotkut DDMMYY-XXXX-mallit eivät voi koskaan olla voimassa olevia CPR-numeroita (ne, joissa modulo-11-laskenta tuottaa 1). Työkalut, jotka mallit tunnistavat 10-numeron lukuja muodossa DDMMYY-XXXX ilman modulus-11-validointia, tuottavat vääriä positiivisia tuloksia päivämäärämerkkijonoista, viitenumeroista ja laskutussekoista.

67% yleisistä NLP-työkaluista puuttuu CPR modulus-11 -toteutus (Datatilsynet 2024). Tämä tunnistamisvirhe on yksittäinen eniten mainittu tekninen puute Datatilsynetin terveydenhuollon valvontatoimissa.

Tanskan terveysdatan tutkimus-ekosysteemi

Tanskan terveysrekisterit — maailman täydellisimpien pitkittäistutkimusten terveysdatakokoelmien joukossa — on linkitetty CPR-numeron kautta. CPR mahdollistaa tutkijoiden yhdistää:

  • Sairaalasta kotiutustiedot (vuodesta 1977)
  • Lääkärin reseptitietokanta (vuodesta 1995)
  • Syöpärekisteri (vuodesta 1943)
  • Kuolinsyytietokanta (vuodesta 1970)
  • Perusterveydenhuollon diagnoositiedot (vuodesta 1990)

Tämä yhdistettävyys tekee tanskalaisesta terveys tutkimuksesta maailmanluokan, mutta luo uudelleentunnistamisriskin, jota Datatilsynet ottaa vakavasti: jopa "de-anonymisoidut" tietokannat, jotka säilyttävät CPR:ään liittyvät attribuutit (ikä, sukupuoli, diagnoosi, vuosi), voidaan uudelleentunnistaa yhdistettynä muihin tietokantoihin.

Datatilsynetin vuoden 2024 ohjeet terveysdatan toissijaisesta käytöstä edellyttävät, että näitä rekistereitä käyttävien organisaatioiden on osoitettava:

Tekninen anonymisointiasiakirja: Ei politiikkalausunto, vaan tekninen asiakirja, joka osoittaa tarkalleen, mitkä tunnisteet on poistettu, mitkä kvasi-tunnisteet on yleistetty ja mikä k-anonymiteettitaso saavutettiin tulostetussa tietokannassa.

Kolmannen osapuolen validointi tutkimustietokannoille: Tutkimustietokannoille, joissa on yli 5 000 henkilöä, Datatilsynet suosittelee riippumatonta teknistä tarkastusta anonymisointimenettelyille.

Datan minimointi: Tutkimustietokannan laajuuden on vastattava asiakirjoitettua tutkimuskysymystä. Datatilsynet on löytänyt useita tapauksia, joissa tutkijat ovat käyttäneet täydellisiä kansallisia rekistereitä, kun satunnainen otos tai maantieteellisesti rajoitettu tietokanta olisi palvellut tutkimustavoitetta.

Erityiset terveydenhuollon valvontahuomiot

Datatilsynetin 14 terveydenhuollon valvontapäätöstä vuonna 2024 dokumentoi toistuvia teknisiä epäonnistumisia:

Tapauskuvio 1: Sairaala jakaa de-anonymisoidun potilastietokannan akateemisen tutkimuskumppanin kanssa AI-koulutusta varten. Tietokanta sisältää CPR-syntymäpäivän osat, diagnoosikoodit ja hoitopäivämäärät. Datatilsynet toteaa, että yhdistelmä mahdollistaa harvinaisten tautien potilaiden uudelleentunnistamisen (pieni nimittäjäongelma — epätavalliset diagnoosit rajoittavat tunnistamista merkittävästi).

Tapauskuvio 2: Terveydenhuollon teknologia-startup käsittelee tanskalaisia potilastietoja Yhdysvalloissa sijaitsevan AI-API:n kautta kliinisen dokumentaation tueksi. CPR-numerot lääkärin muistiinpanoissa siirretään Yhdysvaltojen palvelimille ilman riittävää siirtomekanismia ja ilman ennakkotarkastusta CPR:n tunnistamiseksi ja poistamiseksi.

Tapauskuvio 3: Vakuutusyhtiö käsittelee lääkärintodistustietoja invaliditeettivaatimuksia varten. CPR-numerot skannatuissa PDF-todistuksissa eivät tule yhtiön OCR-plus-ekstraktioputkessa havaituiksi (OCR muuntaa kuvan tekstiksi; tekstiä käsitellään, mutta ilman CPR-validointia monet CPR-numerot jäävät huomaamatta OCR-tulosteessa muotoilun artefaktien vuoksi).

OCR-plus-ekstraktiovirhetilanne on erityisen yleinen terveydenhuollon konteksteissa, joissa asiakirjat vastaanotetaan skannattuina kuvina. CPR:n tunnistamisen on toimittava OCR-käsitellyssä tekstissä, joka usein tuo mukanaan muotoilun epäjohdonmukaisuuksia (väliin lisätyt välilyönnit, viivan paikan virheet), jotka rikkovat yksinkertaista mallin tunnistamista.

Tanskan terveydenhuollon GDPR-yhteensopivuuden osalta: CPR:n tunnistaminen modulus-11-validoinnilla sekä puhtaassa tekstissä että OCR-käsitellyssä tulosteessa, tanskan kielen NER (spaCy da_core_news) ja tekninen anonymisointiasiakirja, joka täyttää Datatilsynetin vuoden 2024 toissijaisen käytön standardit, ovat vähimmäisvaatimukset.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.