Detecção de MRN HIPAA sem conhecimento de regex
O formato do número de prontuário do seu hospital não está em nenhuma ferramenta PII padrão. Veja como adicioná-lo em cinco minutos. Sem código.
As equipes de TI de saúde enfrentam um problema HIPAA que não existe em outros setores. O identificador que mais precisam detectar — o número de prontuário médico (MRN) — é definido pela própria instituição. Não existe padrão nacional.
Todo projeto de de-identificação HIPAA precisa de configuração personalizada. Sem ela, os MRNs passam por arquivos "de-identificados" sem serem detectados.
O problema dos MRNs em redes multissite
Redes hospitalares construídas por aquisições herdam sistemas EHR antigos. Cada sistema tem seu próprio formato de MRN:
- Memorial Hospital (Epic): MRN:XXXXXXX — número de 7 dígitos com prefixo
- St. Mary's (Cerner): PT-YYYYY — 5 dígitos com prefixo de paciente
- University Hospital (Meditech): UHN-XXXXXXXXXX — 10 caracteres alfanuméricos
- Clínica afiliada (EMR independente): C\d{5} — letra C seguida de 5 dígitos
HIPAA Safe Harbor exige a remoção de todos os 18 tipos de identificadores. A categoria 8 são os números de prontuário. Uma ferramenta que não conhece seu formato vai perdê-los. O arquivo parece limpo. Não está.
A comunidade de saúde do ServiceNow documentou exatamente esse problema. Ferramentas padrão encontram SSNs e números de telefone. Sempre perdem os MRNs específicos de cada instituição.
A barreira das expressões regulares
Adicionar regras personalizadas ao Microsoft Presidio — a base de código aberto de muitas ferramentas HIPAA — exige habilidades técnicas reais:
- Conhecer a classe PatternRecognizer
- Escrever expressões regulares em sintaxe Python
- Configurar arquivos YAML
- Calibrar pontuações de confiança
- Testar e depurar scripts Python
Um responsável por conformidade que conhece o formato MRN não consegue fazer isso sozinho. O resultado é um ticket de engenharia que fica 6 a 8 semanas na fila. A lacuna permanece aberta.
Geração de padrões com IA
Existe um caminho mais rápido. Descreva o padrão em linguagem simples. Receba uma expressão regular funcional.
Passos:
- Abrir o gerador de entidades personalizadas
- Fornecer exemplos: "Nossos MRNs são assim: MRN:1234567, MRN:9876543, MRN:0001234"
- A IA gera a regra: MRN:\d{7}
- Testar com 10 registros de amostra
- Todos os MRNs encontrados? Salvar e implantar.
Para uma rede com quatro formatos de MRN:
- Memorial Hospital → MRN:\d{7}
- St. Mary's → PT-\d{5}
- University Hospital → UHN-[A-Z0-9]{10}
- Clínica → C\d{5}
Criar quatro entidades personalizadas. Agrupá-las em um preset. Aplicar a todos os documentos. Tempo total: uma tarde.
Ver detecção personalizada de MRN em pipelines HIPAA sem código para um guia completo passo a passo.
Validação para certificação Safe Harbor
HIPAA Safe Harbor exige que a entidade coberta não tenha "conhecimento real" de que os dados possam identificar alguém. (45 CFR §164.514(b))
A validação demonstra que suas regras personalizadas cobrem os 18 tipos de identificadores.
Passo 1: Extrair amostras. Obter 100 registros de cada site. Misturar períodos de tempo e departamentos.
Passo 2: Executar a detecção. Processar os 400 documentos com suas regras personalizadas.
Passo 3: Revisão manual. Revisar 20 documentos à mão (amostra de 5%). Buscar MRNs perdidos e falsos positivos.
Passo 4: Refinar as regras. MRNs perdidos? Ampliar o padrão. Muitos falsos positivos? Adicionar delimitadores de palavras.
Passo 5: Documentar. Registrar a regra, o tamanho da amostra, os resultados e a data. Esse registro é sua prova Safe Harbor.
Ver redação explicável e trilhas de auditoria HIPAA para mais sobre os requisitos de documentação.
Cobertura completa do Safe Harbor
Após fechar a lacuna de MRN, revise todas as 18 categorias.
| Categoria | Ferramentas padrão | Personalização necessária? |
|---|---|---|
| 1. Nomes | Modelo NER | Não |
| 2. Dados geográficos | Detecção de localização | Não para estado; Sim para códigos de site |
| 3. Datas | Detecção de datas | Não |
| 4. Números de telefone | Detecção de telefone | Não |
| 5. Números de fax | Detecção de telefone | Não |
| 6. Endereços de e-mail | Detecção de e-mail | Não |
| 7. SSNs | Detecção de SSN | Não |
| 8. Números de prontuário | Não integrado | Sim — específico do site |
| 9. Números de beneficiário de plano de saúde | Parcial | Frequente — específico do plano |
| 10. Números de conta | Parcial | Frequente — formato de faturamento |
| 11. Números de licença | Parcial | Frequente — específico do estado |
| 12. Identificadores de veículo | Parcial | Raro em documentos clínicos |
| 13. Identificadores de dispositivo | Parcial | Sim se os dispositivos estão documentados |
| 14. URLs da web | Detecção de URL | Não |
| 15. Endereços IP | Detecção de IP | Não |
| 16. Identificadores biométricos | Contexto de texto | Raro em resumos de alta |
| 17. Fotografias | Somente imagem | Fora do escopo de texto |
| 18. Outros identificadores únicos | Não integrado | Sim — específico do site |
Para textos clínicos, as categorias 8, 9, 10 e 18 mais frequentemente precisam de configuração personalizada.
Contexto dos documentos clínicos
Resumos de alta, notas clínicas e relatórios operatórios são os principais arquivos compartilhados para pesquisa. Eles contêm:
- MRNs em cabeçalhos e rodapés
- Números de conta em seções de faturamento
- Datas de todos os eventos — admissão, procedimento, laboratório, medicação
- Nomes de médicos e números DEA
- Informações sobre médicos referenciadores
- Números de membro de plano de saúde
As regras personalizadas para formatos específicos do site complementam as regras integradas para formatos padrão. Juntas, oferecem a cobertura completa que o HIPAA Safe Harbor exige.
Conclusão
A de-identificação HIPAA sem regras personalizadas não é de-identificação Safe Harbor. O formato MRN de cada instituição é único. As ferramentas padrão os perdem. A lacuna de conformidade é real e permanece aberta até que você a feche.
A geração de padrões com IA reduz o trabalho de 6 a 8 semanas de engenharia a uma única tarde de conformidade. Descrever o formato. Testá-lo com registros reais. Implantá-lo. Pronto.