A Exigência dos 18 Identificadores
A Regra de Privacidade da HIPAA (45 CFR Seção 164.514) especifica o método de desidentificação Safe Harbor: para desidentificar informações de saúde protegidas, 18 categorias específicas de identificadores devem ser removidas. O método Safe Harbor é uma das duas abordagens de desidentificação da HIPAA; é mais comumente usado porque a conformidade é determinística — se todas as 18 categorias forem removidas, os dados são desidentificados como questão de lei.
As 18 categorias:
- Nomes
- Dados geográficos (menores que estado — incluindo endereço, cidade, condado, CEP)
- Datas (exceto ano) relacionadas ao indivíduo — nascimento, admissão, alta, morte
- Números de telefone
- Números de fax
- Endereços de e-mail
- Números de Seguro Social
- Números de registro médico (MRNs)
- Números de beneficiários de planos de saúde
- Números de contas
- Números de certificados/licenças
- Identificadores de veículos e números de série
- Identificadores de dispositivos e números de série
- URLs da web
- Endereços IP
- Identificadores biométricos (impressões digitais, impressões de voz)
- Fotografias de rosto completo e imagens comparáveis
- Qualquer outro número ou código identificador único
A maioria das ferramentas de detecção de PII detecta de forma confiável as categorias 1, 4, 6 e 7 — nomes, números de telefone, endereços de e-mail e SSNs. Elas falham sistematicamente nas categorias 8, 9, 10, 11, 13 e 18.
A Lacuna na Detecção de MRN
Os Números de Registro Médico estão explicitamente listados como um identificador de PHI (categoria 8). Os formatos de MRN são específicos da instituição — não há um formato nacional padronizado. O Hospital A usa um inteiro de 7 dígitos. O Hospital B usa "PT-YYYYNNNN" onde YYYY é o ano e NNNN é um número de sequência. O Hospital C usa uma string alfanumérica de 8 caracteres. O Hospital D usa "MRN: " seguido por um número de 9 dígitos.
Uma ferramenta genérica de detecção de PII que não conhece o formato de MRN do Hospital B não detectará "PT-2024-8847" como um identificador de PHI. O documento contendo esse MRN será tratado como desidentificado após o processamento padrão — quando na verdade não está.
Isso cria um modo de falha de conformidade que é invisível para a organização: a desidentificação parece completa porque a ferramenta não sinalizou nenhuma violação. A detecção ausente é o problema.
A Solução de Entidade Personalizada
As organizações de saúde que precisam de detecção de MRN têm três opções. Primeiro, implementar a detecção no Presidio diretamente — exigindo expertise em programação Python e manutenção contínua à medida que os formatos de MRN evoluem. Segundo, manter uma etapa de revisão manual especificamente para MRNs — criando um elo fraco sistemático no pipeline de desidentificação. Terceiro, usar um sistema que forneça criação de entidade personalizada assistida por IA sem exigir código.
A abordagem do assistente de padrão de IA: a equipe de informática clínica fornece 5 valores de MRN de exemplo (SVHS-0012345, SVHS-0987654, SVHS-1122334, SVHS-4455667, SVHS-8899001) e solicita um padrão de detecção. A IA gera uma regex — SVHS-d{7} — e a valida contra os exemplos fornecidos. O padrão é salvo na predefinição de conformidade da equipe com a HIPAA. Todas as sessões subsequentes de desidentificação detectam automaticamente esse formato de MRN.
A mesma abordagem se aplica a outros identificadores específicos da instituição: formatos de números de beneficiários de planos de saúde, formatos de números de série de equipamentos e quaisquer códigos identificadores proprietários que sejam específicos da organização.
Fontes: