Numeri CPR danesi: guida alla conformità GDPR
Aggiornato al 2026
Il Datatilsynet, autorità danese per la protezione dei dati, ha emesso 31 decisioni GDPR nel 2024, di cui 14 riguardanti dati sanitari. Questa quota elevata riflette due realtà: la Danimarca gestisce un vasto sistema sanitario nazionale e le lacune tecniche in tale sistema continuano a esporre i dati dei pazienti.
La regola della cifra di controllo per i numeri CPR
Il numero CPR è il documento identificativo personale danese: 10 cifre nel formato GGMMAA-XXXX. Le prime sei cifre corrispondono alla data di nascita; le ultime quattro sono un codice e una cifra di controllo.
La cifra di controllo utilizza una regola di modulo 11:
- Si prendono le cifre da 1 a 9.
- Si assegna a ciascuna un peso: 4, 3, 2, 7, 6, 5, 4, 3, 2.
- Si moltiplica ciascuna cifra per il rispettivo peso e si sommano tutti i risultati.
- Si divide per 11 e si annota il resto.
- Resto 0 → la cifra di controllo è 0.
- Resto 1 → il numero non è valido.
- Resto 2–10 → la cifra di controllo è 11 meno il resto.
Questa regola è rilevante per qualsiasi strumento che esegue la scansione alla ricerca di numeri CPR. Alcune stringhe nel formato GGMMAA-XXXX non possono mai essere valide. Gli strumenti che saltano questo passaggio segnalano date, codici fattura e numeri di riferimento come identificativi reali.
La revisione del 2024 dell'autorità ha rilevato che il 67% degli strumenti NLP generici salta questo controllo — la principale lacuna tecnica riscontrata nei casi sanitari.
I cinque registri sanitari danesi
La Danimarca collega i dati sanitari attraverso cinque registri nazionali. L'identificativo personale costituisce il collegamento tra tutti e cinque.
- Cartelle di dimissione ospedaliera (dal 1977)
- Dati sulle prescrizioni (dal 1995)
- Registro dei tumori (dal 1943)
- Registro delle cause di morte (dal 1970)
- Diagnosi in cure primarie (dal 1990)
Questo rende la ricerca sanitaria danese molto potente, ma genera anche un rischio: la semplice rimozione dell'identificatore grezzo non è sufficiente. Un dataset che conserva ancora età, sesso, diagnosi e anno può re-identificare le persone, in particolare quelle affette da malattie rare.
Le linee guida del Datatilsynet del 2024 sull'uso secondario dei dati sanitari stabiliscono tre requisiti.
Documentare le operazioni eseguite sui dati: Elencare i campi rimossi, quelli arrotondati o raggruppati e la dimensione dei gruppi ottenuta. Una nota di policy non soddisfa questo standard.
Revisione esterna per dataset di grandi dimensioni: Per dataset con più di 5.000 persone, l'autorità raccomanda una revisione tecnica indipendente dei passaggi di de-identificazione.
Adeguare i dati alla domanda di ricerca: Il dataset deve corrispondere alla finalità di ricerca dichiarata. L'autorità ha riscontrato casi in cui i team avevano utilizzato registri nazionali completi quando un campione più piccolo sarebbe stato sufficiente.
Consulta la nostra guida al rilevamento degli identificativi nazionali UE per comprendere come le regole della cifra di controllo si applicano ad altri formati di identificativo europei.
Cosa hanno rilevato i casi del 2024
I 14 casi sanitari condividono tre tipologie di errore ricorrenti.
Condivisione di dati di ricerca: Un ospedale invia a un partner accademico un dataset di pazienti de-identificato per l'addestramento di sistemi IA. Il dataset contiene parti della data di nascita, codici diagnostici e date di trattamento. L'autorità rileva che questa combinazione re-espone i pazienti affetti da malattie rare: le diagnosi insolite riducono rapidamente il pool di possibili identità.
Servizi IA di terze parti: Una società di tecnologia sanitaria invia note cliniche a un servizio IA con sede negli USA per l'elaborazione delle cartelle cliniche, senza rimuovere preventivamente gli identificativi personali e senza un meccanismo di trasferimento valido.
Lacune nella pipeline OCR: Una compagnia assicurativa elabora moduli PDF scansionati per le richieste di indennizzo per disabilità. Lo strumento OCR converte le immagini in testo, ma non esegue il controllo della cifra di controllo sull'output. Molti identificativi vengono ignorati.
L'OCR spesso introduce spazi all'interno dei numeri o sposta il trattino. Il semplice pattern matching non funziona su questo tipo di output. Il rilevamento deve operare sul testo OCR, non solo su input puliti. Consulta la nostra guida al rilevamento PII in ambito sanitario tramite OCR per i passaggi necessari alla gestione dei documenti scansionati.
Tre requisiti tecnici fondamentali
Questi tre elementi costituiscono la base per la conformità GDPR in ambito sanitario danese.
Controllo della cifra di controllo su tutti i testi: Eseguire il controllo completo di modulo 11 su ogni stringa candidata, applicandolo sia al testo pulito che all'output OCR.
Rilevamento dei nomi in lingua danese: Utilizzare un modello addestrato su testi danesi. Il modello spaCy da_core_news è un'opzione. Un modello generico per l'inglese non riconosce nomi e denominazioni organizzative in danese.
Registrazione della de-identificazione: Documentare cosa è stato rimosso, cosa è stato raggruppato e la dimensione dei gruppi nell'output. L'autorità richiede questa documentazione in forma tecnica, non come semplice nota di policy.
Per dati sui costi degli incidenti legati ai dati sanitari, consulta la nostra analisi dei costi delle violazioni in ambito sanitario.