By · Last updated 2026-05-25

Voltar ao BlogSaúde

Desidentificação de Abrigo Seguro HIPAA em Larga...

O Abrigo Seguro HIPAA exige a remoção de 18 categorias específicas de identificadores de PHI.

May 25, 20269 min de leitura
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

Desidentificação HIPAA Safe Harbor em grande escala: Guia para pesquisadores de saúde

Um centro médico acadêmico precisa anonimizar 200.000 registros de alta. O objetivo: criar um modelo de previsão de readmissões. A ferramenta existente custa US$ 120.000 por ano. O orçamento da bolsa para o processamento de dados: US$ 5.000.

Essa diferença é comum. A pesquisa em saúde precisa de grandes conjuntos de dados. Esses conjuntos contêm informações de saúde protegidas (PHI). A PHI inclui nomes, datas, endereços e outros dados pessoais. Remover a PHI permite que os pesquisadores usem os dados legalmente. Mas as ferramentas têm preços para sistemas hospitalares, não para bolsas de pesquisa.

HIPAA Safe Harbor: Os 18 identificadores

O método Safe Harbor do HIPAA (45 CFR §164.514(b)) lista 18 tipos de PHI. Todos devem ser removidos antes que os dados de saúde percam seu status "protegido". Após a remoção, a pesquisa pode prosseguir sem o consentimento do paciente.

Aqui estão os 18 tipos:

  1. Nomes
  2. Dados geográficos menores que o estado (os CEPs precisam ser truncados para 3 dígitos para populações pequenas)
  3. Todas as datas exceto o ano — admissão, alta, nascimento, morte e outras datas
  4. Números de telefone
  5. Números de fax
  6. Endereços de e-mail
  7. Números de seguridade social
  8. Números de prontuários médicos
  9. Números de beneficiários do plano de saúde
  10. Números de conta
  11. Números de certificados e licenças
  12. Identificadores de veículos e números de série
  13. Identificadores de dispositivos e números de série
  14. URLs da web
  15. Endereços IP
  16. Identificadores biométricos (impressões digitais, impressões de voz)
  17. Fotos de rosto completo e imagens similares
  18. Qualquer outro número ou código de identificação único

Os cinco primeiros aparecem em quase todos os registros de alta. Todos devem ser removidos ou alterados.

As datas requerem cuidado especial. Cada data do paciente deve manter o ano, mas perder o dia e o mês específicos. "15 de março de 2023" torna-se "2023". As durações podem ser mantidas como campo calculado — mas somente após as datas de origem terem sido removidas.

O problema de escala

Conjuntos de dados de saúde úteis são grandes:

  • Previsão de readmissões: 50.000–500.000 encontros
  • Análise de resultados de tratamento: 10.000–100.000 pacientes por condição
  • Eficácia de medicamentos: 5.000–50.000 registros
  • Saúde populacional: 100.000+ encontros

A revisão manual nessa escala não funciona. Uma revisão de 5 minutos por registro leva 250–2.500 dias úteis para 100.000 registros. As taxas de erro humano são de 1–5%. Mesmo uma taxa de omissão pequena cria risco HIPAA. Dois revisores tratando datas de forma diferente podem quebrar o status Safe Harbor. É um erro fácil de cometer em um grande conjunto de dados.

A remoção automatizada é a única opção real. Ela deve detectar os 18 tipos nos formatos variados encontrados nas notas clínicas.

A lacuna de preços das ferramentas

As ferramentas empresariais visam sistemas hospitalares:

  • Datavant: US$ 100.000+/ano
  • Veradigm (Allscripts): preços similares
  • Clinithink CLiX: somente contato de vendas
  • Syntegra (dados sintéticos): preços empresariais

Esses fornecedores vendem para grandes organizações com equipes jurídicas e de conformidade. As bolsas de pesquisa não são seu mercado.

Ferramentas gratuitas e de código aberto existem, mas exigem expertise:

  • MITRE MIST: gratuito, mas exige configuração considerável e tem suporte limitado a idiomas
  • Stanford NLP DEID: qualidade de pesquisa, requer Java e habilidades de programação
  • Ferramentas i2b2 NLP: NLP clínico, configuração necessária

A maioria dos pesquisadores precisa de remoção confiável de PHI com configuração simples. As ferramentas de código aberto precisam de habilidades de codificação e linguística para funcionar. Elas também precisam de trabalho de validação. As ferramentas empresariais custam mais do que a maioria das bolsas permite. A lacuna é real e bloqueia a pesquisa.

Processo em cinco etapas em lotes

Para 200.000 registros de alta, uma abordagem sequencial em lotes funciona bem.

Etapa 1: Exportar do EHR. Exporte campos estruturados e não estruturados como arquivos de texto ou PDF por encontro. Epic, Cerner e Meditech suportam isso. Eles exportam arquivos CSV ou HL7 com campos de notas clínicas incluídos.

Etapa 2: Processar lotes de 5.000. Lotes desse tamanho são rápidos e pequenos o suficiente para revisão em cada etapa.

Definir tipos de entidade para o Safe Harbor:

  • PERSON (nomes de pacientes, familiares mencionados nas notas)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (endereços, CEPs, cidades — qualquer coisa abaixo do nível estadual)
  • DATE (todas as datas clínicas; pacientes com mais de 89 anos tornam-se "> 89")
  • HEALTHCARE_ID (números de seguro, números de beneficiários)
  • ACCOUNT_NUMBER

Para mais informações sobre remoção de PHI em lotes para notas clínicas, veja processamento em lotes de notas clínicas com ferramentas HIPAA locais. Esse guia cobre formatos de arquivo e ajuste de entidades em profundidade.

Etapa 3: Tratar datas como uma etapa separada. Manter o ano. Remover o mês e o dia. Substituir qualquer idade acima de 89 por "> 89". Pares raros de idade-doença podem re-identificar pacientes. Calcular primeiro os campos de duração — duração da internação, dias até a readmissão. Depois excluir as datas de origem.

Etapa 4: Amostrar e revisar cada lote. Após cada lote de 5.000 registros, extrair 50 registros para revisão humana. Verificar todos os 18 tipos. Procurar itens contextuais como nomes de pesquisadores em notas ou detalhes do médico encaminhador. Confirmar que o tratamento das datas corresponde às regras do Safe Harbor. Corrigir as lacunas antes de continuar.

Etapa 5: Documentar e certificar. O HIPAA exige que alguém com conhecimento estatístico confirme que o risco de re-identificação é muito pequeno. Para o Safe Harbor, a equipe que realiza a remoção toma essa decisão. Redigir a configuração de entidades e os resultados da amostragem. Guardá-los para os registros do IRB.

Precisa de uma trilha de auditoria para cada remoção? Redação explicável com trilha de auditoria HIPAA cobre os requisitos de registro em detalhes.

Comparação de custos

Ferramenta empresarial: US$ 120.000/ano. Inclui configuração, treinamento, processamento ilimitado e suporte de conformidade.

Processamento em lotes:

  • 200.000 registros × 300 palavras em média = 60.000.000 tokens
  • A €0,0001/token: €6.000 em processamento
  • Plano Pro (€180/ano) ou Plano Business (€348/ano) para o projeto
  • Tempo de revisão do pesquisador: 20–40 horas
  • Total: aproximadamente €7.000–8.000

Economia em comparação com a ferramenta empresarial: US$ 111.000–113.000. A pesquisa que estava bloqueada em US$ 120.000 torna-se viável a US$ 7.000.

Limitações importantes

Somente texto. Essa abordagem trata PHI baseada em texto. Imagens, áudio e dados biométricos (categorias Safe Harbor 13, 16 e 17) precisam de outras ferramentas.

A validação é obrigatória. As ferramentas automatizadas perdem alguns itens. Uma taxa de omissão de 0,1% em 200.000 registros deixa 200 registros com PHI ativa. Esse é um risco real de HIPAA. Não pular a validação.

Consultar o escritório de privacidade. A aprovação do IRB para o estudo não cobre o método de remoção. A maioria dos centros revisa separadamente as abordagens de remoção de PHI. Este guia complementa essa revisão — não a substitui.

A determinação de especialistas é uma opção. O HIPAA também permite a remoção por meio de "Expert Determination" (45 CFR §164.514(b)(1)). Um especialista em estatística certifica que o risco de re-identificação é muito pequeno. Esse caminho se adapta a conjuntos de dados incomuns. Funciona bem quando remover todas as datas quebraria a análise de séries temporais.

Para uma comparação lado a lado de ferramentas PHI automatizadas, veja comparação de precisão na detecção de PHI.

Conclusão

A pesquisa em saúde que poderia ajudar pacientes está bloqueada pelos custos de remoção de PHI. A revisão manual não escala. As ferramentas empresariais custam mais do que a maioria das bolsas permite. Os conjuntos de dados ficam bloqueados ou mal processados.

O processamento em lotes baseado em tokens torna a pesquisa em grande escala viável. Centros acadêmicos e pesquisadores independentes obtêm a mesma precisão que grandes sistemas hospitalares. Com um orçamento de bolsa padrão.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.