O Datatilsynet da Dinamarca emitiu 31 decisões de fiscalização do GDPR em 2024, com 14 envolvendo especificamente sistemas de dados de saúde — uma concentração que reflete os altos riscos da infraestrutura nacional abrangente de dados de saúde da Dinamarca e as falhas técnicas que expõem repetidamente os dados dos pacientes.
Número CPR: O Requisito do Módulo-11
O número CPR (Det Centrale Personregister-nummer) — 10 dígitos, formato DDMMYY-XXXX — codifica a data de nascimento (dígitos 1-6) e um número sequencial com dígito de verificação (dígitos 7-10). O último dígito é validado usando aritmética de módulo-11:
Verificação de módulo-11: multiplique os dígitos 1-9 pelos pesos (4,3,2,7,6,5,4,3,2), some, e faça o módulo 11. Se o resultado for 0, o dígito de verificação = 0. Se o resultado for 1, o CPR é inválido (nenhum dígito de verificação válido existe para este prefixo). Caso contrário, o dígito de verificação = 11 menos o resultado.
Isso cria a propriedade importante de que alguns padrões DDMMYY-XXXX nunca podem ser números CPR válidos (aqueles onde o cálculo de módulo-11 produz 1). Ferramentas que fazem correspondência de padrões com números de 10 dígitos formatados como DDMMYY-XXXX sem validação de módulo-11 geram falsos positivos a partir de strings de data, números de referência e códigos de fatura.
67% das ferramentas genéricas de NLP não possuem implementação do módulo-11 do CPR (Datatilsynet 2024). Essa falha de detecção é a inadequação técnica mais citada nas ações de fiscalização da saúde do Datatilsynet.
Ecossistema de Pesquisa em Dados de Saúde da Dinamarca
Os registros de saúde da Dinamarca — entre os conjuntos de dados de saúde longitudinais mais completos do mundo — estão vinculados através do número CPR. O CPR permite que os pesquisadores vinculem:
- Registros de alta hospitalar (desde 1977)
- Banco de dados de prescrições (desde 1995)
- Registro de câncer (desde 1943)
- Registro de causas de morte (desde 1970)
- Dados de diagnóstico de cuidados primários (desde 1990)
Essa capacidade de vinculação torna a pesquisa em saúde dinamarquesa de classe mundial, mas cria um risco de reidentificação que o Datatilsynet leva a sério: mesmo conjuntos de dados "desidentificados" que retêm atributos vinculados ao CPR (idade, sexo, diagnóstico, ano) podem ser reidentificados em combinação com outros conjuntos de dados.
A orientação de 2024 do Datatilsynet sobre o uso secundário de dados de saúde exige que as organizações que utilizam esses registros demonstrem:
Documentação técnica de anonimização: Não uma declaração de política, mas documentação técnica mostrando exatamente quais identificadores foram removidos, quais quasi-identificadores foram generalizados e qual nível de k-anonimidade foi alcançado no conjunto de dados de saída.
Validação de terceiros para conjuntos de dados de pesquisa: Para conjuntos de dados de pesquisa com mais de 5.000 indivíduos, o Datatilsynet recomenda revisão técnica independente dos procedimentos de anonimização.
Minimização de dados: O escopo do conjunto de dados de pesquisa deve corresponder à questão de pesquisa documentada. O Datatilsynet encontrou múltiplos casos onde pesquisadores usaram registros nacionais completos quando uma amostra aleatória ou um conjunto de dados geograficamente limitado teria atendido ao propósito da pesquisa.
Descobertas Específicas de Fiscalização na Saúde
As 14 decisões de fiscalização da saúde do Datatilsynet em 2024 documentam falhas técnicas recorrentes:
Padrão de caso 1: Hospital compartilha conjunto de dados de pacientes desidentificados com parceiro de pesquisa acadêmica para treinamento de IA. O conjunto de dados contém componentes da data de nascimento do CPR, códigos de diagnóstico e datas de tratamento. O Datatilsynet constata que a combinação permite a reidentificação de pacientes com doenças raras (problema de pequeno denominador — diagnósticos incomuns estreitam significativamente a identificação).
Padrão de caso 2: Startup de tecnologia em saúde processa dados de pacientes dinamarqueses através de API de IA baseada nos EUA para suporte à documentação clínica. Números CPR em notas médicas são transmitidos para servidores nos EUA sem mecanismo de transferência adequado e sem detecção e remoção prévias do CPR.
Padrão de caso 3: Companhia de seguros processa dados de certificados médicos para reivindicações de invalidez. Números CPR em certificados PDF digitalizados não são detectados pelo pipeline de extração OCR-plus da empresa (OCR converte imagem em texto; o texto é processado, mas sem validação do CPR, muitos números CPR são perdidos na saída do OCR devido a artefatos de formatação).
O modo de falha do OCR-plus-extraction é particularmente comum em contextos de saúde onde documentos são recebidos como imagens digitalizadas. A detecção do CPR deve funcionar em texto processado por OCR, que frequentemente introduz inconsistências de formatação (espaços inseridos no meio do número, erros na posição do hífen) que quebram a correspondência de padrões simples.
Para a conformidade com o GDPR na saúde dinamarquesa: a detecção do CPR com validação de módulo-11 em texto limpo e saída processada por OCR, NER em dinamarquês (spaCy da_core_news), e documentação técnica de anonimização atendendo aos padrões de uso secundário de 2024 do Datatilsynet são os requisitos mínimos.
Fontes: