O problema de precisão de 22,7% do Presidio
Falsos positivos na detecção de PII causam danos reais. Quando 77,3% do que sua ferramenta sinaliza como "nomes de pessoas" não são nomes reais, você não está protegendo a privacidade. Você está destruindo dados.
Um benchmark de 2024 testou o modelo NER padrão do Microsoft Presidio em documentos empresariais. O teste cobriu relatórios financeiros, correspondência com clientes, documentação de produtos e tickets de suporte. O resultado: 22,7% de precisão na detecção de nomes.
Esse número é marcante. De cada 100 itens sinalizados, 23 são nomes individuais reais. Os outros 77 são falsos positivos — rótulos de produtos, termos de marcas ou rótulos de cidades.
Três em cada quatro detecções estão erradas. Não é um problema menor de calibração. É uma ferramenta quebrada para processamento de documentos empresariais.
Por que isso acontece
O Presidio usa o modelo en_core_web_lg do spaCy por padrão. Esse modelo aprendeu com textos jornalísticos. Em notícias, a maioria dos nomes próprios são pessoas ou lugares reais.
Documentos empresariais são diferentes.
Rótulos de produtos que parecem nomes individuais. "Registros de remessa do Apple iPhone 15 Pro" é sinalizado como PERSON. O mesmo ocorre com "Samsung Galaxy Tab" e "implantação Cisco Meraki."
Termos de empresas com partes semelhantes a nomes. Em "resultados da Johnson Controls," a palavra "Johnson" é sinalizada como PERSON. "Portfólio Goldman Sachs" dispara o mesmo erro.
Rótulos de localidades que ativam a detecção de pessoas. "Projeto Victoria Harbour" sinaliza "Victoria" como PERSON. "Hub Santiago" sinaliza "Santiago" da mesma forma.
O modelo não tem o contexto para distinguir "Apple" (empresa) de "Apple Smith" (uma pessoa). Essa lacuna é a raiz da maioria dos falsos positivos. Textos jornalísticos o treinaram para tratar nomes próprios como pessoas ou lugares. Textos empresariais quebram essa regra o tempo todo.
O efeito a jusante
Uma empresa de análise de dados usou o Presidio para limpar pesquisas de clientes antes de compartilhá-las. Uma auditoria encontrou quatro problemas. Primeiro, 40% das pesquisas tinham rótulos de produtos incorretamente removidos. Segundo, rótulos de cidades foram excluídos de cada resposta. Terceiro, menções de marcas foram removidas do conjunto de análise. Quarto, o sentimento sobre produtos específicos não podia ser lido.
A equipe de análise recebeu texto redigido com todas as referências de produtos removidas. A pesquisa original mencionava o iPhone Pro e o carregador Apple. Esse significado havia desaparecido.
A empresa não estava protegendo melhor a privacidade. Estava destruindo dados sem obter conformidade. O Presidio foi substituído após a auditoria.
Consulte nossa visão geral de conformidade para ver como a qualidade de detecção afeta sua posição regulatória.
Uma abordagem melhor: detecção híbrida
O problema não é exclusivo do Presidio. NER em nível de tokens sem contexto sempre terá esse problema. A solução é a detecção contextual.
Por que os transformers ajudam: Um modelo como XLM-RoBERTa lê a frase completa. "Apple anunciou seus resultados" → Apple é uma empresa. "Apple Smith entrou para a equipe" → Apple é um nome próprio. O contexto diz qual é qual.
Isso melhora a precisão mantendo um recall alto. Veja a comparação abaixo.
| Abordagem | Precisão | Recall |
|---|---|---|
| NER padrão do Presidio | 22,7% | ~85% |
| Somente Regex | ~95% | ~40% |
| Híbrido (Regex + NLP + Transformer) | ~85% | ~80% |
A abordagem híbrida alcança 85% de precisão. Isso significa uma taxa de falsos positivos de 15%. Muito melhor que 77,3%. Para documentos empresariais, essa diferença importa.
A pilha híbrida tem quatro etapas:
-
Camada Regex: Encontra IDs estruturados — e-mails, números de telefone, CPFs, IBANs. Os formatos são fixos, então falsos positivos são raros. Essa camada roda primeiro.
-
Camada NLP (spaCy): NER padrão para pessoas, empresas e lugares. Alto recall, menor precisão.
-
Camada Transformer (XLM-RoBERTa): Reavalia cada resultado NLP usando o contexto completo da frase. "Apple" em um contexto de produto perde sua pontuação de entidade. "John" em um texto de reclamação a ganha.
-
Limiar de confiança: Apenas resultados acima de uma pontuação definida passam para a saída. Aumentar o limiar para casos de uso analítico. Reduzir para desidentificação HIPAA.
Resultados após a mudança
A empresa de análise mudou para detecção híbrida. Os ganhos foram claros. Falsos positivos em rótulos de produtos caíram de 40% para 3%. Falsos positivos em rótulos de cidades caíram para perto de zero. O recall de identidades reais ficou em ~82%, levemente abaixo de 85%, mas a precisão melhorou bastante.
As pesquisas voltaram a ser utilizáveis. "iPhone," "Apple," "Samsung" e "Chicago" permaneceram no texto. Nomes de clientes em contextos de reclamação foram corretamente anonimizados.
A detecção híbrida requer mais processamento. Para grandes volumes, os tempos de execução são um pouco maiores. Para a maioria dos casos de uso empresariais, o ganho de precisão vale a pena. A empresa pôde realizar análises novamente. Esse era o objetivo dos dados da pesquisa.
Veja nossa visão geral de segurança para mais detalhes sobre nossa abordagem de detecção.
Quando altas taxas de falsos positivos são aceitáveis
Alguns casos favorecem o recall sobre a precisão.
HIPAA Safe Harbor: Perder um verdadeiro positivo é uma violação. Uma taxa de falsos positivos de 10% é aceitável se nenhuma PHI real for perdida. Remoção excessiva é preferível à remoção insuficiente.
Revisão jurídica: Perder um contato privilegiado pode renunciar ao privilégio advogado-cliente. Falsos positivos requerem revisão mas não criam responsabilidade.
Análise empresarial: Remoção excessiva destrói dados sem ganho de conformidade. A precisão importa mais aqui. Use uma abordagem híbrida com um limiar de confiança alto. Isso mantém rótulos de marcas e termos de cidades na saída. Somente nomes de pessoas reais são removidos.
O equilíbrio certo depende do seu caso de uso. Ferramentas que permitem configurar o limiar dão controle. Nenhum padrão único funciona para todos os contextos.
Nossa FAQ responde perguntas frequentes sobre limiares e modos de detecção.
Conclusão
Uma taxa de precisão de 22,7% significa que 3 em cada 4 detecções estão erradas. Para documentos empresariais, isso torna a saída inutilizável para análise. Também gera falsa confiança sobre conformidade.
A detecção híbrida resolve isso. Ela combina regex, NLP e pontuação por transformer. Os dados permanecem úteis após a anonimização. Nomes de pessoas reais são removidos. Rótulos de marcas, termos de cidades e identificadores de produtos permanecem.
Se você abandonou o Presidio por problemas de falsos positivos, este é o caminho a seguir. Não uma nova configuração do mesmo modelo. Uma arquitetura diferente construída para contextos de documentos empresariais.
Fontes
Priva PII Benchmark 2024: Avaliação de precisão do Presidio. VERIFIED-EXTERNAL.
Microsoft Presidio: Entidades suportadas e arquitetura do modelo. VERIFIED-EXTERNAL.
spaCy: Dados de treinamento e limitações do en_core_web_lg. VERIFIED-EXTERNAL.