By · Last updated 2026-06-05

Voltar ao BlogTécnico

O Problema de Precisão de 22,7% do Presidio...

Um benchmark de 2024 descobriu que o reconhecedor de nomes de pessoas do Presidio alcança 22,7% de precisão em documentos empresariais...

June 5, 20267 min de leitura
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

O problema de precisão de 22,7% do Presidio

Falsos positivos na detecção de PII causam danos reais. Quando 77,3% do que sua ferramenta sinaliza como "nomes de pessoas" não são nomes reais, você não está protegendo a privacidade. Você está destruindo dados.

Um benchmark de 2024 testou o modelo NER padrão do Microsoft Presidio em documentos empresariais. O teste cobriu relatórios financeiros, correspondência com clientes, documentação de produtos e tickets de suporte. O resultado: 22,7% de precisão na detecção de nomes.

Esse número é marcante. De cada 100 itens sinalizados, 23 são nomes individuais reais. Os outros 77 são falsos positivos — rótulos de produtos, termos de marcas ou rótulos de cidades.

Três em cada quatro detecções estão erradas. Não é um problema menor de calibração. É uma ferramenta quebrada para processamento de documentos empresariais.

Por que isso acontece

O Presidio usa o modelo en_core_web_lg do spaCy por padrão. Esse modelo aprendeu com textos jornalísticos. Em notícias, a maioria dos nomes próprios são pessoas ou lugares reais.

Documentos empresariais são diferentes.

Rótulos de produtos que parecem nomes individuais. "Registros de remessa do Apple iPhone 15 Pro" é sinalizado como PERSON. O mesmo ocorre com "Samsung Galaxy Tab" e "implantação Cisco Meraki."

Termos de empresas com partes semelhantes a nomes. Em "resultados da Johnson Controls," a palavra "Johnson" é sinalizada como PERSON. "Portfólio Goldman Sachs" dispara o mesmo erro.

Rótulos de localidades que ativam a detecção de pessoas. "Projeto Victoria Harbour" sinaliza "Victoria" como PERSON. "Hub Santiago" sinaliza "Santiago" da mesma forma.

O modelo não tem o contexto para distinguir "Apple" (empresa) de "Apple Smith" (uma pessoa). Essa lacuna é a raiz da maioria dos falsos positivos. Textos jornalísticos o treinaram para tratar nomes próprios como pessoas ou lugares. Textos empresariais quebram essa regra o tempo todo.

O efeito a jusante

Uma empresa de análise de dados usou o Presidio para limpar pesquisas de clientes antes de compartilhá-las. Uma auditoria encontrou quatro problemas. Primeiro, 40% das pesquisas tinham rótulos de produtos incorretamente removidos. Segundo, rótulos de cidades foram excluídos de cada resposta. Terceiro, menções de marcas foram removidas do conjunto de análise. Quarto, o sentimento sobre produtos específicos não podia ser lido.

A equipe de análise recebeu texto redigido com todas as referências de produtos removidas. A pesquisa original mencionava o iPhone Pro e o carregador Apple. Esse significado havia desaparecido.

A empresa não estava protegendo melhor a privacidade. Estava destruindo dados sem obter conformidade. O Presidio foi substituído após a auditoria.

Consulte nossa visão geral de conformidade para ver como a qualidade de detecção afeta sua posição regulatória.

Uma abordagem melhor: detecção híbrida

O problema não é exclusivo do Presidio. NER em nível de tokens sem contexto sempre terá esse problema. A solução é a detecção contextual.

Por que os transformers ajudam: Um modelo como XLM-RoBERTa lê a frase completa. "Apple anunciou seus resultados" → Apple é uma empresa. "Apple Smith entrou para a equipe" → Apple é um nome próprio. O contexto diz qual é qual.

Isso melhora a precisão mantendo um recall alto. Veja a comparação abaixo.

AbordagemPrecisãoRecall
NER padrão do Presidio22,7%~85%
Somente Regex~95%~40%
Híbrido (Regex + NLP + Transformer)~85%~80%

A abordagem híbrida alcança 85% de precisão. Isso significa uma taxa de falsos positivos de 15%. Muito melhor que 77,3%. Para documentos empresariais, essa diferença importa.

A pilha híbrida tem quatro etapas:

  1. Camada Regex: Encontra IDs estruturados — e-mails, números de telefone, CPFs, IBANs. Os formatos são fixos, então falsos positivos são raros. Essa camada roda primeiro.

  2. Camada NLP (spaCy): NER padrão para pessoas, empresas e lugares. Alto recall, menor precisão.

  3. Camada Transformer (XLM-RoBERTa): Reavalia cada resultado NLP usando o contexto completo da frase. "Apple" em um contexto de produto perde sua pontuação de entidade. "John" em um texto de reclamação a ganha.

  4. Limiar de confiança: Apenas resultados acima de uma pontuação definida passam para a saída. Aumentar o limiar para casos de uso analítico. Reduzir para desidentificação HIPAA.

Resultados após a mudança

A empresa de análise mudou para detecção híbrida. Os ganhos foram claros. Falsos positivos em rótulos de produtos caíram de 40% para 3%. Falsos positivos em rótulos de cidades caíram para perto de zero. O recall de identidades reais ficou em ~82%, levemente abaixo de 85%, mas a precisão melhorou bastante.

As pesquisas voltaram a ser utilizáveis. "iPhone," "Apple," "Samsung" e "Chicago" permaneceram no texto. Nomes de clientes em contextos de reclamação foram corretamente anonimizados.

A detecção híbrida requer mais processamento. Para grandes volumes, os tempos de execução são um pouco maiores. Para a maioria dos casos de uso empresariais, o ganho de precisão vale a pena. A empresa pôde realizar análises novamente. Esse era o objetivo dos dados da pesquisa.

Veja nossa visão geral de segurança para mais detalhes sobre nossa abordagem de detecção.

Quando altas taxas de falsos positivos são aceitáveis

Alguns casos favorecem o recall sobre a precisão.

HIPAA Safe Harbor: Perder um verdadeiro positivo é uma violação. Uma taxa de falsos positivos de 10% é aceitável se nenhuma PHI real for perdida. Remoção excessiva é preferível à remoção insuficiente.

Revisão jurídica: Perder um contato privilegiado pode renunciar ao privilégio advogado-cliente. Falsos positivos requerem revisão mas não criam responsabilidade.

Análise empresarial: Remoção excessiva destrói dados sem ganho de conformidade. A precisão importa mais aqui. Use uma abordagem híbrida com um limiar de confiança alto. Isso mantém rótulos de marcas e termos de cidades na saída. Somente nomes de pessoas reais são removidos.

O equilíbrio certo depende do seu caso de uso. Ferramentas que permitem configurar o limiar dão controle. Nenhum padrão único funciona para todos os contextos.

Nossa FAQ responde perguntas frequentes sobre limiares e modos de detecção.

Conclusão

Uma taxa de precisão de 22,7% significa que 3 em cada 4 detecções estão erradas. Para documentos empresariais, isso torna a saída inutilizável para análise. Também gera falsa confiança sobre conformidade.

A detecção híbrida resolve isso. Ela combina regex, NLP e pontuação por transformer. Os dados permanecem úteis após a anonimização. Nomes de pessoas reais são removidos. Rótulos de marcas, termos de cidades e identificadores de produtos permanecem.

Se você abandonou o Presidio por problemas de falsos positivos, este é o caminho a seguir. Não uma nova configuração do mesmo modelo. Uma arquitetura diferente construída para contextos de documentos empresariais.

Fontes

Priva PII Benchmark 2024: Avaliação de precisão do Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Entidades suportadas e arquitetura do modelo. VERIFIED-EXTERNAL.

spaCy: Dados de treinamento e limitações do en_core_web_lg. VERIFIED-EXTERNAL.

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.