O problema de precisão de 22,7% do Presidio

Falsos positivos na detecção de PII causam danos reais. Quando 77,3% do que sua ferramenta sinaliza como "nomes de pessoas" não são nomes reais, você não está protegendo a privacidade. Você está destruindo dados.

Um benchmark de 2024 testou o modelo NER padrão do Microsoft Presidio em documentos empresariais. O teste cobriu relatórios financeiros, correspondência com clientes, documentação de produtos e tickets de suporte. O resultado: 22,7% de precisão na detecção de nomes.

Esse número é marcante. De cada 100 itens sinalizados, 23 são nomes individuais reais. Os outros 77 são falsos positivos — rótulos de produtos, termos de marcas ou rótulos de cidades.

Três em cada quatro detecções estão erradas. Não é um problema menor de calibração. É uma ferramenta quebrada para processamento de documentos empresariais.

Por que isso acontece

O Presidio usa o modelo en_core_web_lg do spaCy por padrão. Esse modelo aprendeu com textos jornalísticos. Em notícias, a maioria dos nomes próprios são pessoas ou lugares reais.

Documentos empresariais são diferentes.

Rótulos de produtos que parecem nomes individuais. "Registros de remessa do Apple iPhone 15 Pro" é sinalizado como PERSON. O mesmo ocorre com "Samsung Galaxy Tab" e "implantação Cisco Meraki."

Termos de empresas com partes semelhantes a nomes. Em "resultados da Johnson Controls," a palavra "Johnson" é sinalizada como PERSON. "Portfólio Goldman Sachs" dispara o mesmo erro.

Rótulos de localidades que ativam a detecção de pessoas. "Projeto Victoria Harbour" sinaliza "Victoria" como PERSON. "Hub Santiago" sinaliza "Santiago" da mesma forma.

O modelo não tem o contexto para distinguir "Apple" (empresa) de "Apple Smith" (uma pessoa). Essa lacuna é a raiz da maioria dos falsos positivos. Textos jornalísticos o treinaram para tratar nomes próprios como pessoas ou lugares. Textos empresariais quebram essa regra o tempo todo.

O efeito a jusante

Uma empresa de análise de dados usou o Presidio para limpar pesquisas de clientes antes de compartilhá-las. Uma auditoria encontrou quatro problemas. Primeiro, 40% das pesquisas tinham rótulos de produtos incorretamente removidos. Segundo, rótulos de cidades foram excluídos de cada resposta. Terceiro, menções de marcas foram removidas do conjunto de análise. Quarto, o sentimento sobre produtos específicos não podia ser lido.

A equipe de análise recebeu texto redigido com todas as referências de produtos removidas. A pesquisa original mencionava o iPhone Pro e o carregador Apple. Esse significado havia desaparecido.

A empresa não estava protegendo melhor a privacidade. Estava destruindo dados sem obter conformidade. O Presidio foi substituído após a auditoria.

Consulte nossa visão geral de conformidade para ver como a qualidade de detecção afeta sua posição regulatória.

Uma abordagem melhor: detecção híbrida

O problema não é exclusivo do Presidio. NER em nível de tokens sem contexto sempre terá esse problema. A solução é a detecção contextual.

Por que os transformers ajudam: Um modelo como XLM-RoBERTa lê a frase completa. "Apple anunciou seus resultados" → Apple é uma empresa. "Apple Smith entrou para a equipe" → Apple é um nome próprio. O contexto diz qual é qual.

Isso melhora a precisão mantendo um recall alto. Veja a comparação abaixo.

Abordagem	Precisão	Recall
NER padrão do Presidio	22,7%	~85%
Somente Regex	~95%	~40%
Híbrido (Regex + NLP + Transformer)	~85%	~80%

A abordagem híbrida alcança 85% de precisão. Isso significa uma taxa de falsos positivos de 15%. Muito melhor que 77,3%. Para documentos empresariais, essa diferença importa.

A pilha híbrida tem quatro etapas:

Camada Regex: Encontra IDs estruturados — e-mails, números de telefone, CPFs, IBANs. Os formatos são fixos, então falsos positivos são raros. Essa camada roda primeiro.
Camada NLP (spaCy): NER padrão para pessoas, empresas e lugares. Alto recall, menor precisão.
Camada Transformer (XLM-RoBERTa): Reavalia cada resultado NLP usando o contexto completo da frase. "Apple" em um contexto de produto perde sua pontuação de entidade. "John" em um texto de reclamação a ganha.
Limiar de confiança: Apenas resultados acima de uma pontuação definida passam para a saída. Aumentar o limiar para casos de uso analítico. Reduzir para desidentificação HIPAA.

Resultados após a mudança

A empresa de análise mudou para detecção híbrida. Os ganhos foram claros. Falsos positivos em rótulos de produtos caíram de 40% para 3%. Falsos positivos em rótulos de cidades caíram para perto de zero. O recall de identidades reais ficou em ~82%, levemente abaixo de 85%, mas a precisão melhorou bastante.

As pesquisas voltaram a ser utilizáveis. "iPhone," "Apple," "Samsung" e "Chicago" permaneceram no texto. Nomes de clientes em contextos de reclamação foram corretamente anonimizados.

A detecção híbrida requer mais processamento. Para grandes volumes, os tempos de execução são um pouco maiores. Para a maioria dos casos de uso empresariais, o ganho de precisão vale a pena. A empresa pôde realizar análises novamente. Esse era o objetivo dos dados da pesquisa.

Veja nossa visão geral de segurança para mais detalhes sobre nossa abordagem de detecção.

Quando altas taxas de falsos positivos são aceitáveis

Alguns casos favorecem o recall sobre a precisão.

HIPAA Safe Harbor: Perder um verdadeiro positivo é uma violação. Uma taxa de falsos positivos de 10% é aceitável se nenhuma PHI real for perdida. Remoção excessiva é preferível à remoção insuficiente.

Revisão jurídica: Perder um contato privilegiado pode renunciar ao privilégio advogado-cliente. Falsos positivos requerem revisão mas não criam responsabilidade.

Análise empresarial: Remoção excessiva destrói dados sem ganho de conformidade. A precisão importa mais aqui. Use uma abordagem híbrida com um limiar de confiança alto. Isso mantém rótulos de marcas e termos de cidades na saída. Somente nomes de pessoas reais são removidos.

O equilíbrio certo depende do seu caso de uso. Ferramentas que permitem configurar o limiar dão controle. Nenhum padrão único funciona para todos os contextos.

Nossa FAQ responde perguntas frequentes sobre limiares e modos de detecção.

Conclusão

Uma taxa de precisão de 22,7% significa que 3 em cada 4 detecções estão erradas. Para documentos empresariais, isso torna a saída inutilizável para análise. Também gera falsa confiança sobre conformidade.

A detecção híbrida resolve isso. Ela combina regex, NLP e pontuação por transformer. Os dados permanecem úteis após a anonimização. Nomes de pessoas reais são removidos. Rótulos de marcas, termos de cidades e identificadores de produtos permanecem.

Se você abandonou o Presidio por problemas de falsos positivos, este é o caminho a seguir. Não uma nova configuração do mesmo modelo. Uma arquitetura diferente construída para contextos de documentos empresariais.

Fontes

Priva PII Benchmark 2024: Avaliação de precisão do Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Entidades suportadas e arquitetura do modelo. VERIFIED-EXTERNAL.

spaCy: Dados de treinamento e limitações do en_core_web_lg. VERIFIED-EXTERNAL.

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

Iniciar Teste Gratuito Ver Recursos

O Problema de Precisão de 22,7% do Presidio...