title: "Falsos positivos do Presidio: o custo nos setores jurídico e de saúde" description: "Um estudo de 2024 descobriu que o Presidio gerou 13.536 falsos positivos na detecção de nomes em 4.434 amostras — marcando pronomes, nomes de embarcações e países como nomes de pessoas. Veja o custo real." category: technical publishedAt: 2026-03-23 tags:
- taxa de falsos positivos do Presidio
- precisão na detecção de PII
- custo de redação automatizada
- revisão de documentos jurídicos
- detecção híbrida de PII readingTime: 8
Atualizado para 2026
O problema de precisão de 22,7%
Um estudo de 2024 testou o Microsoft Presidio em arquivos empresariais. O Presidio é uma ferramenta PII de código aberto. Equipes jurídicas e organizações de saúde a utilizam amplamente.
O estudo mediu com que frequência o Presidio acertava. De todos os itens marcados como nomes de pessoas, quantos eram realmente nomes de pessoas?
A resposta foi 22,7%. Cerca de 77 de cada 100 marcações estavam erradas. O estudo contou 13.536 marcações falsas em 4.434 arquivos de amostra.
Os erros não eram aleatórios. Eles seguiam padrões claros:
- Pronomes marcados como pessoas ("I" no início de uma frase)
- Nomes de embarcações marcados como pessoas ("ASL Scorpio")
- Nomes de empresas marcados como pessoas ("Deloitte & Touche")
- Nomes de países marcados como pessoas ("Argentina", "Singapura")
Nenhum desses é um caso extremo raro. Eles surgem sempre que um modelo NLP genérico encontra texto especializado. O modelo não foi criado para distingui-los.
O custo das marcações falsas
No trabalho jurídico e de saúde, cada marcação exige uma resposta. As equipes têm três opções. Todas têm custos reais.
Opção 1: uma pessoa verifica cada marcação. O tempo de advogados e especialistas custa de 200 a 800 dólares por hora. Com precisão de 22,7%, o volume é enorme. Isso não é viável em grande escala. Veja eDiscovery PII Automation and Legal Review Cost Reduction para entender como os custos crescem com o volume.
Opção 2: pular a revisão e confiar no resultado. Isso também é arriscado. Quando 77% dos itens "redigidos" não são sensíveis, cria-se risco legal. Tribunais já multaram advogados por redação excessiva. Veja eDiscovery Over-Redaction Sanctions para casos documentados.
Opção 3: aumentar o limiar de pontuação. O Presidio permite definir um score_threshold para eliminar marcações fracas. Um estudo DICOM de 2024 testou isso com 0,7 — um limite bastante alto. O resultado: 38 de 39 imagens DICOM ainda tinham marcações falsas. Os limiares ajudam. Eles não resolvem a causa raiz.
Por que o NLP genérico falha aqui
A lacuna de precisão do Presidio vem de um desajuste entre os dados de treinamento e o uso real.
Arquivos jurídicos estão cheios de termos com letras maiúsculas. Nomes de casos, títulos de leis e códigos de anexos se parecem com dados pessoais para um modelo genérico. Ele os marca. A maioria não são dados pessoais.
Arquivos de saúde acrescentam nomes de medicamentos, códigos de dispositivos e abreviaturas clínicas. "Pt." significa Paciente. "Dr." significa Doutor. Esses elementos interferem na detecção de entidades de formas difíceis de prever.
Arquivos financeiros têm códigos de produtos, cadeias de entidades e IDs de contas que compartilham padrões superficiais com registros pessoais.
Ajustar um modelo com dados do domínio ajuda. Mas exige tempo e esforço para construir e manter atualizado.
Como a detecção híbrida resolve isso
O problema das marcações falsas tem uma solução clara. Divida o trabalho por tipo de dado.
Regras de padrão para dados estruturados. Números de seguridade social, números de telefone, endereços de e-mail e formatos de ID seguem regras fixas. Uma string ou se encaixa no padrão e passa no teste de dígito verificador — ou não. Zero marcações falsas para conjuntos de regras válidos.
Modelos de linguagem para texto livre. Nomes e sobrenomes, rótulos de empresas e locais em prosa não têm estrutura rígida. O NLP os encontra quando as regras não conseguem. Pontuações de confiança e verificações de contexto reduzem a taxa de marcações falsas.
Configurações de pontuação por tipo para controle fino. Equipes jurídicas que não podem arriscar redação excessiva definem limiares altos. Equipes de pesquisa que precisam de alta recuperação definem limiares mais baixos. Veja Binary PII Detection and Confidence Scoring for Compliance para entender como os níveis de pontuação funcionam na prática.
O resultado: muito menos erros do que os padrões do Presidio. A recuperação permanece forte onde as regras sozinhas perderiam muito.
Para equipes jurídicas e de saúde, a pergunta central não é se as marcações falsas existem. Elas sempre existem em sistemas NLP. A pergunta é se a ferramenta permite configurar, medir e documentar esse equilíbrio.