O Problema da Taxa de Erro de 50%
Uma pesquisa de 2025 sobre ferramentas de desidentificação baseadas em LLM (arXiv:2509.14464) descobriu que ferramentas LLM de uso geral perdem mais de 50% do PHI clínico em documentos multilíngues. Esse número reflete uma incompatibilidade arquitetônica fundamental: os LLMs são projetados para compreensão e geração de linguagem, não para a tarefa estruturada e de alta recuperação que a desidentificação do HIPAA requer.
O método Safe Harbor da Regra de Privacidade do HIPAA exige a remoção de 18 categorias específicas de identificadores: nomes, dados geográficos, datas, números de telefone, números de fax, endereços de e-mail, SSNs, números de registro médico, números de beneficiários de planos de saúde, números de contas, números de certificados/licenças, VINs, identificadores de dispositivos, URLs da web, endereços IP, identificadores biométricos, fotografias de rosto inteiro e qualquer outro número ou código identificador único. Cada uma dessas categorias tem formatos estruturados que requerem lógica de detecção específica.
As notas clínicas são onde a dificuldade se concentra. Considere um fragmento típico de nota clínica: "Pt. John D., DOB 4/12/67, MRN 1234567, apresentou-se ao ED em 03/15/24 com dor no peito. Hx anterior: HTN, DM. Dr. Smith solicitou ECG." Esta única frase contém um nome, data de nascimento, MRN, data de admissão e médico responsável — cinco identificadores do HIPAA, alguns em forma abreviada, embutidos em uma abreviação clínica.
O Que os LLMs Perdem e Por Quê
Os LLMs de uso geral falham em PHI clínico em padrões previsíveis.
Identificadores abreviados: As notas clínicas usam abreviações padrão (DOB para data de nascimento, MRN para número de registro médico, Pt. para paciente) que a NER sem contexto pode não reconhecer como marcadores de PII. Um LLM lendo a nota acima para compreensão geral entende o significado clínico; um LLM encarregado da extração de PHI pode perder "Pt. John D." como um padrão de nome parcial.
Datas dependentes de contexto: As datas nas notas clínicas têm significados específicos para o HIPAA. "Idade 67" é um desidentificador parcial que deve ser notado. "DOB 4/12/67" é PHI. "03/15/24" como data de admissão é PHI. Isso requer extração de data ciente do contexto, não apenas correspondência de padrão de data.
Formatos de identificadores regionais: A pesquisa da Cyberhaven (Q4 2025) descobriu que 34,8% de todas as entradas do ChatGPT contêm dados sensíveis, incluindo PII multilíngue. Em contextos de saúde, isso inclui formatos de registro médico não dos EUA, convenções de data internacionais e formatos de identificador de saúde específicos de países que sistemas focados nos EUA perdem.
Identificadores institucionais personalizados: Sistemas de saúde usam formatos de MRN proprietários, IDs de funcionários e códigos de instalações que não fazem parte dos dados de treinamento padrão da NER. Um sistema sem suporte a tipos de entidade personalizados não pode detectar esses.
O Problema de Conformidade do Conjunto de Dados de Pesquisa
Um sistema hospitalar que constrói um conjunto de dados de pesquisa desidentificado a partir de 500.000 notas clínicas enfrenta um risco composto. O HIPAA exige que conjuntos de dados de pesquisa desidentificados atendam ao padrão de "risco muito pequeno" sob o método Safe Harbor ou à abordagem estatística sob Determinação Especializada. Um sistema que perde 50% do PHI produz um conjunto de dados que falha nesse padrão — expondo a instituição de pesquisa a enforcement do OCR e falhas de conformidade do IRB.
As notas clínicas em um conjunto de dados de pesquisa não são uniformes. Elas abrangem diferentes departamentos (cardiologia, oncologia, psiquiatria), diferentes estilos de documentação, diferentes períodos de tempo e — em sistemas de saúde multilíngues — diferentes idiomas. Um sistema de desidentificação que funciona adequadamente em dados de faturamento estruturados pode falhar em notas de progresso psiquiátrico não estruturadas onde o PHI aparece em contexto narrativo em vez de campos rotulados.
A Exigência de Detecção Híbrida
A pesquisa de 2025 identificou o padrão consistente: sistemas com a maior recuperação de PHI combinam detecção de identificadores estruturados (regex para SSNs, MRNs, números de telefone) com NER contextual (modelos baseados em transformadores para nomes, datas em contexto narrativo) e suporte a entidades personalizadas (identificadores específicos da instituição).
Abordagens puras de ML alcançam alta recuperação em identificadores comuns em texto bem formatado, mas degradam em abreviações, tipos de identificadores raros e texto não inglês. Abordagens puras de regex alcançam alta recuperação em identificadores estruturados, mas perdem PHI contextual (o nome de um médico mencionado em uma narrativa clínica sem um prefixo de título).
A arquitetura híbrida de três camadas — regex para identificadores estruturados, NLP para PHI contextual, modelos de transformadores para formas multilíngues e abreviadas — é o padrão identificado pela pesquisa como alcançando taxas de erro abaixo de 5% adequadas para conformidade com o Safe Harbor do HIPAA.
Fontes: