Dán CPR-számok: GDPR-megfelelőségi útmutató
Frissítve 2026-ra
Dánia adatvédelmi hatósága, a Datatilsynet 2024-ben 31 GDPR-határozatot hozott. Ebből tizennégy egészségügyi adatot érintett. Ez a magas arány két tényezőre vezethető vissza: Dánia nagy nemzeti egészségügyi rendszert üzemeltet, és az abban meglévő technikai hiányosságok újra és újra páciens-rekordok kiszivárgásához vezetnek.
A CPR-szám ellenőrző jegyének szabálya
A CPR-szám Dánia személyi azonosítója. Tíz jegyből áll, NNHHÉÉ-XXXX formátumban. Az első hat jegy a születési dátum. Az utolsó négy egy kódból és egy ellenőrző jegyből áll.
Az ellenőrző jegy modulus-11 szabályt alkalmaz:
- Vegyük az 1–9. jegyeket.
- Adjunk mindegyiknek súlyt: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Szorozzuk meg minden jegyet a súlyával, majd adjuk össze az eredményeket.
- Osszuk el 11-gyel, és vegyük a maradékot.
- Maradék 0: az ellenőrző jegy 0.
- Maradék 1: a szám érvénytelen.
- Maradék 2–10: az ellenőrző jegy egyenlő 11 mínusz a maradékkal.
Ez a szabály elengedhetetlen minden CPR-számokat kereső eszköznél. Egyes NNHHÉÉ-XXXX formátumú számsorok soha nem lehetnek érvényes azonosítók. Azok az eszközök, amelyek kihagyják ezt a lépést, dátumokat, számlakövetési kódokat és hivatkozási számokat is valódi azonosítóként jelölnek meg.
A hatóság 2024-es felülvizsgálata megállapította, hogy az általános NLP-eszközök 67%-a kihagyja ezt az ellenőrzést. Ez a leggyakoribb technikai hiba az egészségügyi ügyekben.
Dánia öt egészségügyi nyilvántartása
Dánia az egészségügyi adatokat öt nemzeti nyilvántartásban összekapcsolja. A személyi azonosító köti össze mindet.
- Kórházi elbocsátási nyilvántartás (1977 óta)
- Receptadat-nyilvántartás (1995 óta)
- Rákregiszter (1943 óta)
- Haláloki nyilvántartás (1970 óta)
- Alapellátási diagnózisok (1990 óta)
Ez rendkívül erős egészségügyi kutatási lehetőséget biztosít, de kockázatot is teremt. A nyers azonosító eltávolítása önmagában nem elegendő. Egy adatkészlet, amely még mindig tartalmaz kort, nemet, diagnózist és évet, újra azonosíthatóvá teheti az embereket – különösen ritka betegségekben szenvedők esetén.
A Datatilsynet 2024-es útmutatása az egészségügyi adatok másodlagos felhasználásáról három követelményt támaszt.
Dokumentálja az adatokon végzett műveleteket: Sorolja fel, mely mezőket távolította el, melyeket kerekezte vagy csoportosította, és milyen csoportméretet ér el a kimenet. Egy általános irányelvjegyzet nem felel meg ennek a követelménynek.
Kérjen külső felülvizsgálatot nagyobb adatkészleteknél: Az 5 000 főnél nagyobb adatkészletek esetén a hatóság a de-azonosítási lépések független technikai felülvizsgálatát javasolja.
Igazítsa az adatokat a kérdéshez: Az adatkészletnek illeszkednie kell a kitűzött kutatási célhoz. A hatóság olyan esetekkel találkozott, ahol a csapatok teljes nemzeti nyilvántartásokat használtak ott, ahol egy kisebb minta is elegendő lett volna.
Mit tártak fel a 2024-es ügyek?
A tizennégy egészségügyi ügy három visszatérő hibatípust mutat.
Kutatási adatok megosztása: Egy kórház de-azonosítottnak vélt beteg-adatkészletet küld egy akadémiai partnernek AI-tréninghez. A készlet születési dátum részeit, diagnóziskódokat és kezelési dátumokat tartalmaz. A hatóság megállapítja, hogy ez a kombináció ritka betegségű pácienseket tesz újraazonosíthatóvá.
Harmadik fél AI-szolgáltatások: Egy egészségtechnológiai cég betegadatokat küld egy US-székhelyű AI-szolgáltatónak klinikai rekord-feldolgozáshoz. A személyi azonosítókat nem távolítják el előtte. Érvényes adattovábbítási mechanizmus nincs.
OCR-feldolgozási hiányosságok: Egy biztosító beolvasott PDF-formanyomtatványokat dolgoz fel rokkantsági igénylésekhez. Az OCR-eszköz képeket alakít szöveggé, de nem futtat ellenőrzőszám-vizsgálatot a kimeneten. Sok azonosítót nem ismer fel.
Az OCR sokszor szóközt illeszt a szám közepébe, vagy eltolhatja a kötőjelet. Az egyszerű mintaegyeztetés ezen a kimeneten nem működik. A detektálásnak OCR-szövegen is működnie kell, nem csak tiszta bemeneten.
Három technikai alapkövetelmény
Ez a három elem alkotja a dán egészségügyi GDPR-megfelelőség alapját.
Ellenőrzőszám-vizsgálat minden szövegen: Futtassuk a teljes modulus-11 ellenőrzést minden jelöltre. Alkalmazzuk tiszta szövegre és OCR-kimenetre egyaránt.
Dán NER: Használjunk dán szövegre betanított modellt. A spaCy da_core_news modell egy lehetséges opció. Egy általános angol modell elvéti a dán neveket és cégnéveket.
De-azonosítási nyilvántartás: Dokumentáljuk, mit távolítottunk el, mit csoportosítottunk és mekkora csoportméretet értünk el. A hatóság ezt technikai formában kéri, nem általános irányelvjegyzetként.