By · Last updated 2026-06-05

Tagasi BlogisseGDPR ja Vastavus

Taani CPR: Modulus-11 valideerimine GDPR-i jaoks

67% NLP-tööriistadest jätab Taani CPR-numbri modulus-11 valideerimise vahele. Datatilsynet'i 14 tervishoiu jõustamistegevust 2024. aastal. Tervishoiuandmete teisene kasutamine.

June 5, 20267 min lugemist
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

Taani CPR-numbrid: GDPR-i vastavuse juhend

Uuendatud 2026. aasta seisuga

Taani andmekaitseasutus Datatilsynet tegi 2024. aastal 31 GDPR-i otsust. Neljateist neist puudutas tervishoiuandmeid. See kõrge osakaal peegeldab kahte fakti: Taanil on suur riiklik tervishoiusüsteem ja tehnilised lüngad selles süsteemis paljastavad patsiendi andmeid jätkuvalt.

CPR-numbri kontrollnumbri reegel

CPR-number on Taani isiklik ID. See on PPKKAA-XXXX formaadis 10 numbrit. Esimesed kuus numbrit on sünnikuupäev. Viimased neli on kood ja kontrollnumber.

Kontrollnumber kasutab modulus-11 reeglit:

  1. Võetakse numbrid 1 kuni 9.
  2. Antakse igale kaal: 4, 3, 2, 7, 6, 5, 4, 3, 2.
  3. Korrutatakse iga number oma kaaluga. Liidetakse kõik tulemused.
  4. Jagatakse 11-ga. Märgitakse jääk.
  5. Jääk 0 -> kontrollnumber on 0.
  6. Jääk 1 -> number ei kehti.
  7. Jääk 2-10 -> kontrollnumber on 11 miinus jääk.

See reegel on oluline igale tööriistale, mis otsib CPR-numbreid. Mõned PPKKAA-XXXX stringid ei saa kunagi olla kehtivad. Tööriistad, mis selle sammu vahele jätavad, märgivad kuupäevad, arvekoodid ja viitenumbrid päris ID-dena.

Asutuse 2024. aasta ülevaade leidis, et 67% üldistest NLP-tööriistadest jätab selle kontrolli vahele. See lünk on selle tervishoiujuhtumite peamine tehniline ebaõnnestumine.

Taani viis tervishoiuregistrit

Taani seob tervishoiuandmeid viie riikliku registri kaudu. Isiklik ID seob kõik viis kokku.

  • Haiglast väljakirjutamise andmed (alates 1977)
  • Retseptiandmed (alates 1995)
  • Vähiregister (alates 1943)
  • Surmapõhjuste register (alates 1970)
  • Esmatasandi arstiabi diagnoosid (alates 1990)

See muudab Taani tervishoiuuringud väga tugevaks. See tekitab ka riski. Tooru ID eemaldamine ei ole piisav. Andmekogum, mis sisaldab endiselt vanust, sugu, diagnoosi ja aastat, võib inimesi uuesti paljastada — eriti haruldaste haigustega inimesi.

Datatilsynet'i 2024. aasta juhend tervishoiuandmete teisese kasutamise kohta seab kolm nõuet.

Dokumenteerige, mida andmetega tegite: Loetlege, millised väljad eemaldate, millised ümardate või rühmitatute ja millist grupisuurust väljund saavutab. Poliitika märkus ei vasta sellele standardile.

Hankige suurte kogumite jaoks väline ülevaade: Üle 5000 inimesega andmekogumite puhul soovitab asutus isikuandmete de-identifitseerimise sammude sõltumatut tehnilist ülevaatust.

Sobitada andmed küsimusega: Andmekogum peab vastama esitatud uurimiseesmärgile. Asutus leidis juhtumeid, kus meeskonnad kasutasid täielikke riiklikke registreid, kui piisanud oleks väiksemast valimist.

Vaadake meie ELi riiklike ID-de tuvastamise juhendit selle kohta, kuidas kontrollnumbri reeglid kehtivad teiste Euroopa ID-formaatide puhul.

Mida 2024. aasta juhtumid leidsid

Kaheteistkümnendal tervishoiujuhtumil on kolm ühist ebaõnnestumise tüüpi.

Uurimisandmete jagamine: Haigla saadab de-identifitseeritud patsiendiandmekogumi akadeemilisele partnerile AI-koolituseks. Kogum sisaldab sünnikuupäeva osi, diagnoosikoodide ja ravikuupäevad. Asutus leiab, et see kombinatsioon paljastab haruldaste haigustega patsiendid uuesti. Ebatavalised diagnoosid kitsendavad kogumit kiiresti.

Kolmanda osapoole AI-teenused: Tervishoiutehnoloogia ettevõte saadab patsiendiandmeid USA-põhisele AI-teenusele kliiniliste andmete töötlemiseks. Neis märkmetes olevaid isiklikke ID-sid ei eemaldata enne. Kehtiv ülekandemehhanism puudub.

OCR-ahela lüngad: Kindlustusandja töötleb skannitud PDF-vorme puuetega seotud nõuete jaoks. OCR-tööriist teisendab pildid tekstiks. Kuid see ei käivita väljundil kontrollnumbri teste. Paljud ID-d jäetakse vahele.

OCR sisestab sageli numbri keskele tühikuid või nihutab kriipsu. Lihtne mustri sobitamine katkeb sellise väljundi puhul. Tuvastamine peab töötama OCR-tekstil, mitte ainult puhtal sisendil. Vaadake meie OCR tervishoiu tuvastamise juhendit skannitud dokumentide käsitlemise sammude jaoks.

Kolm tehnilist kohustuslikku elementi

Need kolm elementi moodustavad Taani tervishoiu GDPR-i vastavuse aluse.

Kontrollnumbri testid kogu tekstil: Käivitatakse täielik modulus-11 kontroll kõikidel kandidaatstringidel. Rakendatakse seda nii puhtal tekstil kui ka OCR-väljundil.

Taanikeelesed nimede tuvastamine: Kasutatakse Taani tekstil koolitatud mudelit. spaCy mudel da_core_news on üks valik. Üldine ingliskeelne mudel jätab Taani nimed ja organisatsiooninimed vahele.

De-identifitseerimise andmed: Dokumenteeritakse, mis eemaldati, mis rühmitatuti ja väljundi gruppisuurus. Asutus küsib seda tehnilises vormis, mitte poliitika märkusena.

Tervishoiuandmete juhtumite kulude kohta vaadake meie tervishoiu rikkumise kulude analüüsi.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.