Voltar ao BlogSaúde

Desidentificação HIPAA Sem um PhD em Regex...

O formato do MRN de cada hospital é diferente. Memorial usa MRN:XXXXXXX, St. Mary's usa PT-YYYYY, Hospital Universitário usa UHN-XXXXXXXXXX.

April 20, 20266 min de leitura
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

Desidentificação HIPAA Sem um PhD em Regex: Criação de Padrões de MRN Assistida por IA

O formato do Número de Registro Médico do seu hospital não existe em nenhuma ferramenta padrão de PII. Aqui está como adicioná-lo em 5 minutos sem escrever uma única linha de regex.

As equipes de TI em saúde que implementam a desidentificação HIPAA enfrentam um desafio específico que não existe em outros setores: o identificador que mais precisam detectar — o Número de Registro Médico — é definido pela própria instituição, e não por nenhum padrão nacional.

O resultado: cada implementação de desidentificação HIPAA em um sistema de saúde requer configuração personalizada. Sem configuração personalizada, os MRNs passam por conjuntos de dados "desidentificados" sem serem detectados.

O Caos do MRN em Múltiplas Instalações

Redes de saúde construídas ao longo de anos de aquisições contêm instalações com sistemas EHR legados — cada uma com seu próprio formato de MRN estabelecido há décadas:

  • Hospital Memorial (Epic desde 2015): MRN:XXXXXXX (numérico de 7 dígitos com prefixo)
  • St. Mary's (sistema Cerner legado): PT-YYYYY (5 dígitos com prefixo do paciente)
  • Hospital Universitário (Meditech 6.0): UHN-XXXXXXXXXX (alfanumérico de 10 caracteres)
  • Clínica afiliada (EMR autônomo): Cd{5} (C seguido de 5 dígitos)

O Safe Harbor da HIPAA exige a remoção de todas as 18 categorias de identificadores, incluindo "números de registro médico" (categoria 8). Uma ferramenta de desidentificação que não conhece esses formatos os perde completamente. O conjunto de dados "desidentificado" contém todos os MRNs para todos os quatro formatos de instalação.

A comunidade de saúde da ServiceNow documenta especificamente esse ponto problemático: equipes de TI em saúde que tentam identificar PHI a partir de notas de trabalho de RH descobrem que as configurações padrão do Presidio detectam SSNs e números de telefone enquanto perdem completamente os MRNs específicos da instalação.

A Barreira do Regex

Construir reconhecedores personalizados no Microsoft Presidio (a fundação de código aberto para muitas ferramentas HIPAA) requer:

  • Entender a classe PatternRecognizer
  • Escrever padrões regex na sintaxe do Python
  • Configurar arquivos YAML para registro de reconhecedores
  • Compreender pontuações de confiança e palavras de contexto
  • Testar com scripts Python
  • Depurar reconhecedores que falharam

Para profissionais de TI em saúde sem formação em Python, isso cria uma barreira técnica substancial. Um oficial de conformidade que sabe exatamente qual formato MRN:XXXXXXX é não pode configurar um reconhecedor Presidio sem aprender Python ou esperar por um ticket de engenharia.

O resultado típico: a lacuna de conformidade permanece aberta enquanto o ticket de engenharia fica em uma fila de 6 a 8 semanas.

Geração de Padrões Assistida por IA

A alternativa: descrever o padrão em linguagem simples, receber um regex funcional.

Processo:

  1. Abra o construtor de entidades personalizadas
  2. Forneça exemplos: "Esses parecem números de MRN do nosso sistema: MRN:1234567, MRN:9876543, MRN:0001234"
  3. A IA gera o padrão: MRN:d{7}
  4. Teste contra 10 resumos de alta
  5. Todos os MRNs detectados? Salve e aplique.

Para a rede de múltiplas instalações com quatro formatos de MRN:

  • Hospital Memorial: descreva o formato → MRN:d{7}
  • St. Mary's: descreva o formato → PT-d{5}
  • Hospital Universitário: descreva o formato → UHN-[A-Z0-9]{10}
  • Clínica afiliada: descreva o formato → Cd{5}

Crie quatro entidades personalizadas, agrupe em um preset de "Detecção de MRN da Rede", aplique a todo o processamento de documentos. Tempo total: uma tarde de trabalho do oficial de conformidade.

Validação para Certificação Safe Harbor

O método Safe Harbor da HIPAA exige que a entidade coberta "não tenha conhecimento real de que a informação poderia ser usada sozinha ou em combinação com outras informações para identificar um indivíduo."

Para a detecção baseada em entidades personalizadas, a validação demonstra completude:

Passo 1: Extração de amostras Extraia 100 resumos de alta de cada tipo de instalação. Misture populações de pacientes, departamentos e períodos de tempo.

Passo 2: Processamento automatizado Execute todos os 400 documentos através da detecção de entidades personalizadas.

Passo 3: Amostra de validação humana Revise manualmente 20 documentos processados (amostra de 5%). Procure por:

  • Quaisquer strings que pareçam MRNs, mas não foram detectadas (falsos negativos)
  • Quaisquer strings que não são MRNs que foram sinalizadas incorretamente (falsos positivos)

Passo 4: Refinamento do padrão Se falsos negativos forem encontrados: refine o padrão ou adicione correspondência de contexto. Se falsos positivos forem numerosos: adicione restrições de limite de palavras ou validação de contexto.

Passo 5: Documentação Registre: a definição da entidade personalizada, o tamanho da amostra de validação, os resultados da validação e a data da validação. Esta documentação apoia a certificação Safe Harbor.

Além dos MRNs: Cobertura Completa do Safe Harbor da HIPAA

Após abordar a lacuna de detecção de MRN, revise todas as 18 categorias do Safe Harbor para completude:

CategoriaDetecção PadrãoNecessário Personalizado?
1. Nomes✓ Modelo NERNão
2. Dados geográficos✓ Detecção de localizaçãoNão para estado; Sim para códigos específicos da instalação
3. Datas✓ Detecção de datasNão
4. Números de telefone✓ Detecção de telefoneNão
5. Números de fax✓ Detecção de telefoneNão
6. Endereços de e-mail✓ Detecção de e-mailNão
7. SSNs✓ Detecção de SSNNão
8. Números de registro médico✗ Não no padrãoSim — específico da instituição
9. Números de beneficiários de planos de saúdeParcialMuitas vezes sim — específico da transportadora
10. Números de contasParcialMuitas vezes sim — formato de conta de cobrança
11. Números de certificado/licençaParcialMuitas vezes sim — DEA + específico do estado
12. Identificadores de veículosParcialRaramente em documentos clínicos
13. Identificadores de dispositivosParcialSim, se dispositivos médicos documentados
14. URLs da Web✓ Detecção de URLNão
15. Endereços IP✓ Detecção de IPNão
16. Identificadores biométricos✗ Contexto de textoRaro em resumos de alta
17. Fotografias de rosto inteiro✗ Apenas imagemFora do escopo para processamento de texto
18. Outros identificadores únicos✗ Não no padrãoSim — específico da instituição

Para processamento de texto clínico, as categorias 8, 9, 10 e 18 geralmente requerem adição de entidades personalizadas.

O Contexto da Documentação Clínica

Resumos de alta, notas clínicas e relatórios operatórios são os principais documentos que requerem desidentificação HIPAA para compartilhamento de pesquisa. Esses documentos contêm:

  • MRNs em cabeçalhos e rodapés
  • Números de contas em seções de cobrança
  • Datas ao longo (admissão, procedimentos, laboratórios, medicamentos)
  • Nomes de médicos e números DEA
  • Informações do médico que encaminha
  • IDs de membros de seguro

A detecção de entidades personalizadas para formatos específicos da instituição (MRNs, números de contas) combinada com a detecção padrão para formatos universais (datas, nomes, números de telefone) fornece a cobertura completa que o Safe Harbor da HIPAA exige.

Conclusão

A desidentificação HIPAA sem configuração de entidade personalizada não é desidentificação Safe Harbor da HIPAA. O formato de MRN de cada instituição de saúde é único. Ferramentas padrão de PII os perdem. As equipes de conformidade não podem esperar que as filas de engenharia fechem essa lacuna.

A geração de padrões assistida por IA reduz a lacuna de conformidade de 6-8 semanas de tempo de engenharia para uma tarde de trabalho do oficial de conformidade. Descreva o formato, valide contra amostras, implemente na produção.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.