By · Last updated 2026-05-18

Voltar ao BlogGDPR & Conformidade

Datatilsynet Dinamarca: Validação do Módulo-11 do...

67% das ferramentas de NLP não conseguem validar o módulo-11 do número CPR dinamarquês. 14 ações de fiscalização da saúde do Datatilsynet em 2024.

May 18, 20267 min de leitura
Denmark DatatilsynetCPR modulus-11Danish healthcare GDPRhealth data anonymizationNordic compliance

O Datatilsynet da Dinamarca emitiu 31 decisões de fiscalização do GDPR em 2024, com 14 envolvendo especificamente sistemas de dados de saúde — uma concentração que reflete os altos riscos da infraestrutura nacional abrangente de dados de saúde da Dinamarca e as falhas técnicas que expõem repetidamente os dados dos pacientes.

Número CPR: O Requisito do Módulo-11

O número CPR (Det Centrale Personregister-nummer) — 10 dígitos, formato DDMMYY-XXXX — codifica a data de nascimento (dígitos 1-6) e um número sequencial com dígito de verificação (dígitos 7-10). O último dígito é validado usando aritmética de módulo-11:

Verificação de módulo-11: multiplique os dígitos 1-9 pelos pesos (4,3,2,7,6,5,4,3,2), some, e faça o módulo 11. Se o resultado for 0, o dígito de verificação = 0. Se o resultado for 1, o CPR é inválido (nenhum dígito de verificação válido existe para este prefixo). Caso contrário, o dígito de verificação = 11 menos o resultado.

Isso cria a propriedade importante de que alguns padrões DDMMYY-XXXX nunca podem ser números CPR válidos (aqueles onde o cálculo de módulo-11 produz 1). Ferramentas que fazem correspondência de padrões com números de 10 dígitos formatados como DDMMYY-XXXX sem validação de módulo-11 geram falsos positivos a partir de strings de data, números de referência e códigos de fatura.

67% das ferramentas genéricas de NLP não possuem implementação do módulo-11 do CPR (Datatilsynet 2024). Essa falha de detecção é a inadequação técnica mais citada nas ações de fiscalização da saúde do Datatilsynet.

Ecossistema de Pesquisa em Dados de Saúde da Dinamarca

Os registros de saúde da Dinamarca — entre os conjuntos de dados de saúde longitudinais mais completos do mundo — estão vinculados através do número CPR. O CPR permite que os pesquisadores vinculem:

  • Registros de alta hospitalar (desde 1977)
  • Banco de dados de prescrições (desde 1995)
  • Registro de câncer (desde 1943)
  • Registro de causas de morte (desde 1970)
  • Dados de diagnóstico de cuidados primários (desde 1990)

Essa capacidade de vinculação torna a pesquisa em saúde dinamarquesa de classe mundial, mas cria um risco de reidentificação que o Datatilsynet leva a sério: mesmo conjuntos de dados "desidentificados" que retêm atributos vinculados ao CPR (idade, sexo, diagnóstico, ano) podem ser reidentificados em combinação com outros conjuntos de dados.

A orientação de 2024 do Datatilsynet sobre o uso secundário de dados de saúde exige que as organizações que utilizam esses registros demonstrem:

Documentação técnica de anonimização: Não uma declaração de política, mas documentação técnica mostrando exatamente quais identificadores foram removidos, quais quasi-identificadores foram generalizados e qual nível de k-anonimidade foi alcançado no conjunto de dados de saída.

Validação de terceiros para conjuntos de dados de pesquisa: Para conjuntos de dados de pesquisa com mais de 5.000 indivíduos, o Datatilsynet recomenda revisão técnica independente dos procedimentos de anonimização.

Minimização de dados: O escopo do conjunto de dados de pesquisa deve corresponder à questão de pesquisa documentada. O Datatilsynet encontrou múltiplos casos onde pesquisadores usaram registros nacionais completos quando uma amostra aleatória ou um conjunto de dados geograficamente limitado teria atendido ao propósito da pesquisa.

Descobertas Específicas de Fiscalização na Saúde

As 14 decisões de fiscalização da saúde do Datatilsynet em 2024 documentam falhas técnicas recorrentes:

Padrão de caso 1: Hospital compartilha conjunto de dados de pacientes desidentificados com parceiro de pesquisa acadêmica para treinamento de IA. O conjunto de dados contém componentes da data de nascimento do CPR, códigos de diagnóstico e datas de tratamento. O Datatilsynet constata que a combinação permite a reidentificação de pacientes com doenças raras (problema de pequeno denominador — diagnósticos incomuns estreitam significativamente a identificação).

Padrão de caso 2: Startup de tecnologia em saúde processa dados de pacientes dinamarqueses através de API de IA baseada nos EUA para suporte à documentação clínica. Números CPR em notas médicas são transmitidos para servidores nos EUA sem mecanismo de transferência adequado e sem detecção e remoção prévias do CPR.

Padrão de caso 3: Companhia de seguros processa dados de certificados médicos para reivindicações de invalidez. Números CPR em certificados PDF digitalizados não são detectados pelo pipeline de extração OCR-plus da empresa (OCR converte imagem em texto; o texto é processado, mas sem validação do CPR, muitos números CPR são perdidos na saída do OCR devido a artefatos de formatação).

O modo de falha do OCR-plus-extraction é particularmente comum em contextos de saúde onde documentos são recebidos como imagens digitalizadas. A detecção do CPR deve funcionar em texto processado por OCR, que frequentemente introduz inconsistências de formatação (espaços inseridos no meio do número, erros na posição do hífen) que quebram a correspondência de padrões simples.

Para a conformidade com o GDPR na saúde dinamarquesa: a detecção do CPR com validação de módulo-11 em texto limpo e saída processada por OCR, NER em dinamarquês (spaCy da_core_news), e documentação técnica de anonimização atendendo aos padrões de uso secundário de 2024 do Datatilsynet são os requisitos mínimos.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.