anonym.legal
Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Datatilsynet Tanska: CPR-numeron Modulus-11 Validointi ja Tanskan Terveydenhuollon GDPR-vaatimukset

67% NLP-työkaluista ei tunnista tanskalaisen CPR-numeron modulus-11 validointia. Datatilsynetin 14 terveydenhuollon valvontatoimenpidettä vuonna 2024. Terveystietojen toissijainen käyttö edellyttää asiakirjoitettua anonymisointivalidointimenettelyä.

March 7, 20267 min lukuaika
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Tanskan Datatilsynet antoi 31 GDPR-valvontapäätöstä vuonna 2024, joista 14 liittyi erityisesti terveydenhuollon tietojärjestelmiin — keskittyminen heijastaa Tanskan kattavan kansallisen terveysdatan infrastruktuurin suuria panoksia ja teknisiä epäonnistumisia, jotka toistuvasti paljastavat potilastietoja.

CPR-numero: Modulus-11-vaatimus

CPR-numero (Det Centrale Personregister-nummer) — 10 numeroa, muoto DDMMYY-XXXX — koodaa syntymäpäivän (numerot 1-6) ja sekvenssinumeron tarkistusnumerolla (numerot 7-10). Viimeinen numero validoidaan modulus-11-aritmetiikan avulla:

Modulus-11 tarkistus: kerro numerot 1-9 painoilla (4,3,2,7,6,5,4,3,2), summa, ota modulo 11. Jos tulos on 0, tarkistusnumero = 0. Jos tulos on 1, CPR on virheellinen (tälle etuliitteelle ei ole voimassa olevaa tarkistusnumeroa). Muuten, tarkistusnumero = 11 miinus tulos.

Tämä luo tärkeän ominaisuuden, että jotkut DDMMYY-XXXX-mallit eivät voi koskaan olla voimassa olevia CPR-numeroita (ne, joissa modulo-11-laskenta tuottaa 1). Työkalut, jotka mallit tunnistavat 10-numeron lukuja muodossa DDMMYY-XXXX ilman modulus-11-validointia, tuottavat vääriä positiivisia tuloksia päivämäärämerkkijonoista, viitenumeroista ja laskutussekoista.

67% yleisistä NLP-työkaluista puuttuu CPR modulus-11 -toteutus (Datatilsynet 2024). Tämä tunnistamisvirhe on yksittäinen eniten mainittu tekninen puute Datatilsynetin terveydenhuollon valvontatoimissa.

Tanskan terveysdatan tutkimus-ekosysteemi

Tanskan terveysrekisterit — maailman täydellisimpien pitkittäistutkimusten terveysdatakokoelmien joukossa — on linkitetty CPR-numeron kautta. CPR mahdollistaa tutkijoiden yhdistää:

  • Sairaalasta kotiutustiedot (vuodesta 1977)
  • Lääkärin reseptitietokanta (vuodesta 1995)
  • Syöpärekisteri (vuodesta 1943)
  • Kuolinsyytietokanta (vuodesta 1970)
  • Perusterveydenhuollon diagnoositiedot (vuodesta 1990)

Tämä yhdistettävyys tekee tanskalaisesta terveys tutkimuksesta maailmanluokan, mutta luo uudelleentunnistamisriskin, jota Datatilsynet ottaa vakavasti: jopa "de-anonymisoidut" tietokannat, jotka säilyttävät CPR:ään liittyvät attribuutit (ikä, sukupuoli, diagnoosi, vuosi), voidaan uudelleentunnistaa yhdistettynä muihin tietokantoihin.

Datatilsynetin vuoden 2024 ohjeet terveysdatan toissijaisesta käytöstä edellyttävät, että näitä rekistereitä käyttävien organisaatioiden on osoitettava:

Tekninen anonymisointiasiakirja: Ei politiikkalausunto, vaan tekninen asiakirja, joka osoittaa tarkalleen, mitkä tunnisteet on poistettu, mitkä kvasi-tunnisteet on yleistetty ja mikä k-anonymiteettitaso saavutettiin tulostetussa tietokannassa.

Kolmannen osapuolen validointi tutkimustietokannoille: Tutkimustietokannoille, joissa on yli 5 000 henkilöä, Datatilsynet suosittelee riippumatonta teknistä tarkastusta anonymisointimenettelyille.

Datan minimointi: Tutkimustietokannan laajuuden on vastattava asiakirjoitettua tutkimuskysymystä. Datatilsynet on löytänyt useita tapauksia, joissa tutkijat ovat käyttäneet täydellisiä kansallisia rekistereitä, kun satunnainen otos tai maantieteellisesti rajoitettu tietokanta olisi palvellut tutkimustavoitetta.

Erityiset terveydenhuollon valvontahuomiot

Datatilsynetin 14 terveydenhuollon valvontapäätöstä vuonna 2024 dokumentoi toistuvia teknisiä epäonnistumisia:

Tapauskuvio 1: Sairaala jakaa de-anonymisoidun potilastietokannan akateemisen tutkimuskumppanin kanssa AI-koulutusta varten. Tietokanta sisältää CPR-syntymäpäivän osat, diagnoosikoodit ja hoitopäivämäärät. Datatilsynet toteaa, että yhdistelmä mahdollistaa harvinaisten tautien potilaiden uudelleentunnistamisen (pieni nimittäjäongelma — epätavalliset diagnoosit rajoittavat tunnistamista merkittävästi).

Tapauskuvio 2: Terveydenhuollon teknologia-startup käsittelee tanskalaisia potilastietoja Yhdysvalloissa sijaitsevan AI-API:n kautta kliinisen dokumentaation tueksi. CPR-numerot lääkärin muistiinpanoissa siirretään Yhdysvaltojen palvelimille ilman riittävää siirtomekanismia ja ilman ennakkotarkastusta CPR:n tunnistamiseksi ja poistamiseksi.

Tapauskuvio 3: Vakuutusyhtiö käsittelee lääkärintodistustietoja invaliditeettivaatimuksia varten. CPR-numerot skannatuissa PDF-todistuksissa eivät tule yhtiön OCR-plus-ekstraktioputkessa havaituiksi (OCR muuntaa kuvan tekstiksi; tekstiä käsitellään, mutta ilman CPR-validointia monet CPR-numerot jäävät huomaamatta OCR-tulosteessa muotoilun artefaktien vuoksi).

OCR-plus-ekstraktiovirhetilanne on erityisen yleinen terveydenhuollon konteksteissa, joissa asiakirjat vastaanotetaan skannattuina kuvina. CPR:n tunnistamisen on toimittava OCR-käsitellyssä tekstissä, joka usein tuo mukanaan muotoilun epäjohdonmukaisuuksia (väliin lisätyt välilyönnit, viivan paikan virheet), jotka rikkovat yksinkertaista mallin tunnistamista.

Tanskan terveydenhuollon GDPR-yhteensopivuuden osalta: CPR:n tunnistaminen modulus-11-validoinnilla sekä puhtaassa tekstissä että OCR-käsitellyssä tulosteessa, tanskan kielen NER (spaCy da_core_news) ja tekninen anonymisointiasiakirja, joka täyttää Datatilsynetin vuoden 2024 toissijaisen käytön standardit, ovat vähimmäisvaatimukset.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.