O Imposto de Conformidade Invisível
As ferramentas de detecção de PII são tipicamente avaliadas com base na recuperação — qual porcentagem de PII real a ferramenta capturou? Mas a precisão — qual porcentagem das detecções da ferramenta são PII real — determina o custo operacional de usar a ferramenta.
Um sistema com 95% de recuperação e 22,7% de precisão captura 95% da PII real, mas para cada entidade de PII real detectada, ele sinaliza 3,4 falsos positivos. Em um conjunto de dados contendo 10.000 entidades de PII reais, esse sistema gera 10.000 / 0,227 ≈ 44.000 detecções totais, das quais 34.000 são falsos positivos que requerem revisão manual ou causam sobre-redação.
Esse é o "imposto de falsos positivos": o ônus operacional imposto a qualquer organização que tenta usar um sistema de detecção de PII de alta recuperação e baixa precisão em escala de produção. O imposto de falsos positivos tem custos diretos — tempo de revisores manuais — e custos indiretos: documentos sobre-redigidos obscurecem informações relevantes, desaceleram fluxos de trabalho e reduzem a confiança no sistema automatizado.
O Que o Problema #1071 do Presidio Documenta
A discussão no GitHub da Microsoft Presidio #1071 (2024) documenta um padrão específico e sistemático de falsos positivos. Reconhecedores de TFN (Número de Arquivo Fiscal) e PCI com validação de checksum produzem pontuações de confiança de 1.0 — confiança máxima — para números que não são PII, mas que passam pelo algoritmo de checksum.
O problema de design: a verificação de palavras de contexto (verificando se palavras como "número de arquivo fiscal" ou "TFN" aparecem perto da entidade detectada) é aplicada após a etapa de checksum, em vez de antes. Números que passam pelo checksum recebem uma pontuação de 1.0 independentemente do contexto. Em documentos contendo dados numéricos — planilhas financeiras, conjuntos de dados científicos, arquivos de log — isso produz uma inundação de falsos positivos que não podem ser filtrados apenas pelo limite de pontuação.
Um padrão separado da comunidade Presidio (questão do GitHub #999): a segmentação de palavras em alemão cria falsos positivos para entidades de nome e localização. Compostos alemães como "Bundesbehörde" (autoridade federal) ou termos comuns em alemão podem ser segmentados incorretamente e detectados como nomes pessoais.
O Problema de Precisão de 22,7%
Alvaro et al. (2024) avaliaram as configurações padrão do Presidio em conjuntos de dados empresariais de múltiplas línguas e encontraram 22,7% de precisão — o que significa que em documentos empresariais reais, menos de 1 em cada 4 detecções do Presidio corresponde a PII real. Esse número é consistente com a experiência de campo dos profissionais: o Presidio ajustado para recuperação produz ruído inutilizável em produção.
Um estudo de 2024 examinando metadados de imagens médicas DICOM descobriu que mesmo com score_threshold=0.7, 38 de 39 imagens DICOM ainda tinham entidades de falsos positivos. O limite que elimina falsos positivos para um tipo de documento cria falsos negativos para outro.
O problema de precisão não é exclusivo do Presidio — reflete a dificuldade inerente de construir um detector de PII de alta recuperação que também alcance alta precisão em diversos tipos de documentos, idiomas e formatos de dados. O desafio é que qualquer limite fixo representa um compromisso: um limite alto reduz falsos positivos, mas aumenta falsos negativos; um limite baixo aumenta a recuperação, mas inflaciona falsos positivos.
A Solução Consciente do Contexto
A alternativa ao ajuste de limites é a pontuação de confiança consciente do contexto. Em vez de atribuir confiança com base apenas na correspondência do padrão da entidade, a pontuação consciente do contexto aumenta a confiança quando palavras de contexto aparecem perto da correspondência e suprime falsos positivos quando o contexto está ausente.
Para a detecção de TFN: uma pontuação é aumentada quando "número de arquivo fiscal", "TFN" ou "imposto australiano" aparece dentro de uma janela configurável. Um número que passa pelo checksum do TFN sem palavras de contexto próximas recebe uma pontuação de confiança reduzida que fica abaixo do limite de revisão.
Para falsos positivos interlinguais: tipos de entidades que são específicos para certos idiomas (ID fiscal alemã, NIR francês, TFN australiano) podem ser limitados a documentos detectados como aquele idioma. Um detector de TFN aplicado apenas a documentos em inglês e inglês australiano elimina os falsos positivos sistemáticos que ocorrem quando o mesmo detector é executado em documentos em alemão.
O terceiro nível de detecção híbrida — modelos contextuais baseados em transformadores — adiciona outra camada: o modelo avalia todo o contexto circundante para distinguir um nome pessoal genuíno ("John Smith, ID do Paciente 12345") de um falso positivo (um identificador de produto que coincide com um padrão de nome).
Fontes: