By · Last updated 2026-03-23

Voltar ao BlogTécnico

O Problema do Falso Positivo: Por Que a Redação Pura...

Um benchmark de 2024 descobriu que o Presidio gerou 13.536 detecções de nomes falsos positivos em 4.434 amostras — sinalizando pronomes...

March 23, 20268 min de leitura
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

title: "Falsos positivos do Presidio: o custo nos setores jurídico e de saúde" description: "Um estudo de 2024 descobriu que o Presidio gerou 13.536 falsos positivos na detecção de nomes em 4.434 amostras — marcando pronomes, nomes de embarcações e países como nomes de pessoas. Veja o custo real." category: technical publishedAt: 2026-03-23 tags:

  • taxa de falsos positivos do Presidio
  • precisão na detecção de PII
  • custo de redação automatizada
  • revisão de documentos jurídicos
  • detecção híbrida de PII readingTime: 8

Atualizado para 2026

O problema de precisão de 22,7%

Um estudo de 2024 testou o Microsoft Presidio em arquivos empresariais. O Presidio é uma ferramenta PII de código aberto. Equipes jurídicas e organizações de saúde a utilizam amplamente.

O estudo mediu com que frequência o Presidio acertava. De todos os itens marcados como nomes de pessoas, quantos eram realmente nomes de pessoas?

A resposta foi 22,7%. Cerca de 77 de cada 100 marcações estavam erradas. O estudo contou 13.536 marcações falsas em 4.434 arquivos de amostra.

Os erros não eram aleatórios. Eles seguiam padrões claros:

  • Pronomes marcados como pessoas ("I" no início de uma frase)
  • Nomes de embarcações marcados como pessoas ("ASL Scorpio")
  • Nomes de empresas marcados como pessoas ("Deloitte & Touche")
  • Nomes de países marcados como pessoas ("Argentina", "Singapura")

Nenhum desses é um caso extremo raro. Eles surgem sempre que um modelo NLP genérico encontra texto especializado. O modelo não foi criado para distingui-los.

O custo das marcações falsas

No trabalho jurídico e de saúde, cada marcação exige uma resposta. As equipes têm três opções. Todas têm custos reais.

Opção 1: uma pessoa verifica cada marcação. O tempo de advogados e especialistas custa de 200 a 800 dólares por hora. Com precisão de 22,7%, o volume é enorme. Isso não é viável em grande escala. Veja eDiscovery PII Automation and Legal Review Cost Reduction para entender como os custos crescem com o volume.

Opção 2: pular a revisão e confiar no resultado. Isso também é arriscado. Quando 77% dos itens "redigidos" não são sensíveis, cria-se risco legal. Tribunais já multaram advogados por redação excessiva. Veja eDiscovery Over-Redaction Sanctions para casos documentados.

Opção 3: aumentar o limiar de pontuação. O Presidio permite definir um score_threshold para eliminar marcações fracas. Um estudo DICOM de 2024 testou isso com 0,7 — um limite bastante alto. O resultado: 38 de 39 imagens DICOM ainda tinham marcações falsas. Os limiares ajudam. Eles não resolvem a causa raiz.

Por que o NLP genérico falha aqui

A lacuna de precisão do Presidio vem de um desajuste entre os dados de treinamento e o uso real.

Arquivos jurídicos estão cheios de termos com letras maiúsculas. Nomes de casos, títulos de leis e códigos de anexos se parecem com dados pessoais para um modelo genérico. Ele os marca. A maioria não são dados pessoais.

Arquivos de saúde acrescentam nomes de medicamentos, códigos de dispositivos e abreviaturas clínicas. "Pt." significa Paciente. "Dr." significa Doutor. Esses elementos interferem na detecção de entidades de formas difíceis de prever.

Arquivos financeiros têm códigos de produtos, cadeias de entidades e IDs de contas que compartilham padrões superficiais com registros pessoais.

Ajustar um modelo com dados do domínio ajuda. Mas exige tempo e esforço para construir e manter atualizado.

Como a detecção híbrida resolve isso

O problema das marcações falsas tem uma solução clara. Divida o trabalho por tipo de dado.

Regras de padrão para dados estruturados. Números de seguridade social, números de telefone, endereços de e-mail e formatos de ID seguem regras fixas. Uma string ou se encaixa no padrão e passa no teste de dígito verificador — ou não. Zero marcações falsas para conjuntos de regras válidos.

Modelos de linguagem para texto livre. Nomes e sobrenomes, rótulos de empresas e locais em prosa não têm estrutura rígida. O NLP os encontra quando as regras não conseguem. Pontuações de confiança e verificações de contexto reduzem a taxa de marcações falsas.

Configurações de pontuação por tipo para controle fino. Equipes jurídicas que não podem arriscar redação excessiva definem limiares altos. Equipes de pesquisa que precisam de alta recuperação definem limiares mais baixos. Veja Binary PII Detection and Confidence Scoring for Compliance para entender como os níveis de pontuação funcionam na prática.

O resultado: muito menos erros do que os padrões do Presidio. A recuperação permanece forte onde as regras sozinhas perderiam muito.

Para equipes jurídicas e de saúde, a pergunta central não é se as marcações falsas existem. Elas sempre existem em sistemas NLP. A pergunta é se a ferramenta permite configurar, medir e documentar esse equilíbrio.

Fontes

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.