O que o Presidio Perde: Os 220+ Tipos de Entidade Essenciais para Detecção de PII em Conformidade com o GDPR
O Microsoft Presidio vem com aproximadamente 40 reconhecedores de entidade padrão. Para implantações baseadas nos EUA que lidam com documentos centrados nos EUA, isso cobre as categorias essenciais: SSNs, passaportes dos EUA, carteiras de motorista dos EUA, cartões de crédito, endereços de e-mail, números de telefone e nomes de pessoas.
Para implantações na UE, a lacuna de cobertura é significativa. O GDPR se aplica a todos os dados pessoais da UE, independentemente da nacionalidade. Organizações da UE que processam dados de seus próprios cidadãos precisam de reconhecedores que o Presidio não fornece por padrão.
A Biblioteca de Entidades Padrão do Presidio
Os reconhecedores padrão do Presidio incluem:
Identificadores centrados nos EUA:
- Número de Seguro Social dos EUA (SSN)
- Número do Passaporte dos EUA
- Número da Carteira de Motorista dos EUA (vários formatos estaduais)
- Número da Conta Bancária dos EUA
- ITIN dos EUA (Número de Identificação do Contribuinte Individual)
- Número da Licença Médica dos EUA
Identificadores universais:
- Endereço de E-mail
- Número de Telefone (prioridade para formato centrado nos EUA)
- Endereço IP
- Número do Cartão de Crédito (algoritmo de Luhn)
- Endereço de Carteira de Criptomoeda
- URL
Entidades de texto genéricas:
- PERSON (baseado em NER)
- LOCATION (baseado em NER)
- ORGANIZATION (baseado em NER)
- DATE_TIME (baseado em NER)
Cobertura internacional limitada:
- Número NHS do Reino Unido
- Número de Seguro Nacional do Reino Unido (NINO)
- Identificadores de Entidade Financeira (alguns)
Total: ~40 reconhecedores
O que as Organizações da UE Realmente Precisam
Identificadores financeiros: O IBAN (Número da Conta Bancária Internacional) aparece em virtualmente todos os documentos comerciais da UE que envolvem pagamentos, transferências bancárias, faturamento e folha de pagamento. Os formatos de IBAN variam por país, mas seguem um padrão internacional (ISO 13616). O Presidio não possui um reconhecedor de IBAN padrão.
Uma fintech alemã que processa registros de pagamento de clientes processa números de IBAN em cada documento de transação. Sem reconhecimento de IBAN, esses documentos são processados com a detecção de cartão de crédito ativa (detectando números de cartão), mas os campos de IBAN (o identificador de pagamento primário da UE) são completamente ignorados.
Identificadores fiscais nacionais:
- Steueridentifikationsnummer alemã: 11 dígitos numéricos
- NIR francês (Numéro d'Inscription au Répertoire): 13 caracteres alfanuméricos
- Codice Fiscale italiano: 16 caracteres alfanuméricos com validação estrutural
- NIF/NIE espanhol: 9 caracteres com sufixo/prefixo de letra
- BSN holandês: 9 dígitos com validação de 11 provas
Nenhum desses está na biblioteca de entidades padrão do Presidio. Um processador de folha de pagamento da UE que lida com documentos de funcionários de vários estados membros está efetivamente cego para seus identificadores financeiros mais sensíveis.
Identificadores de saúde nacionais:
- Número NHS do Reino Unido: 10 dígitos com verificação de módulo-11
- Número de Segurança Social francês (NIR): Também serve como ID de saúde
- Número da Krankenkasse alemã: Alfanumérico, específico do segurador
- Codice Fiscale italiano: Também usado como ID de saúde
- BSN da Holanda: Também usado para seguro de saúde
Organizações de saúde em toda a UE precisam desses identificadores para proteção de dados de saúde equivalente ao HIPAA. O Presidio fornece o Número NHS do Reino Unido, mas perde os IDs de saúde da Europa continental.
Formatos de carteira de motorista da UE: O Presidio tem reconhecedores de carteira de motorista dos EUA (específicos do estado). Os formatos de carteira de motorista da UE são padronizados sob a Diretiva 2006/126/EC, mas variam por estado membro em sua estrutura alfanumérica. Não há reconhecedores de carteira de motorista da UE nos padrões do Presidio.
Números de registro de IVA: Os números de IVA da UE aparecem em cada transação de empresa para empresa. Formato: código do país (2 letras) + 8-12 dígitos alfanuméricos. O Presidio não possui um reconhecedor de número de IVA. Para empresas da UE que compartilham faturas, contratos e documentos comerciais, os números de IVA são identificadores que se conectam a entidades empresariais registradas e seus diretores.
Formatos de passaporte da UE: Reconhecimento de passaporte dos EUA no Presidio, mas os formatos de passaporte da UE (especialmente o formato da Zona Legível por Máquina) não estão cobertos.
O Custo de Engenharia do Desenvolvimento de Reconhecedores Personalizados
Quando organizações da UE implantam o Presidio e descobrem a lacuna de cobertura de entidade, a resposta geralmente é o desenvolvimento de reconhecedores personalizados. O custo:
Tempo de desenvolvimento por reconhecedor:
- Pesquisar o formato do identificador: 1-2 horas
- Escrever a classe PatternRecognizer em Python: 2-4 horas
- Implementar regex com lógica de validação: 2-4 horas
- Configurar palavras de contexto para melhoria de precisão: 1-2 horas
- Escrever testes: 2-3 horas
- Integrar e testar na implantação: 1-2 horas
Por reconhecedor: 9-17 horas.
Para uma fintech alemã que precisa de IBAN + Steuer-ID + carteira de motorista da UE + IVA alemão + IBAN:
- 4 reconhecedores personalizados × 13 horas em média = 52 horas de engenharia
- A €100/hora: €5,200 em desenvolvimento de reconhecedor personalizado
Além da manutenção contínua à medida que os formatos mudam, novos casos de teste surgem e atualizações da API do Presidio exigem modificações nos reconhecedores.
Custo total para cobertura do GDPR da UE em cima do Presidio: €5,200+ inicial + manutenção contínua
A Alternativa: Bibliotecas de Entidades Gerenciadas
anonym.legal estende a fundação do Presidio com mais de 285 tipos de entidade mantidos pela equipe de desenvolvimento — incluindo os identificadores específicos da UE que os padrões do Presidio perdem:
Destaques de cobertura além dos padrões do Presidio:
- IBAN (todos os formatos dos estados membros da UE)
- Identificadores fiscais dos estados membros da UE (incluindo Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL e outros)
- Identificadores de saúde nacionais da UE
- Números de IVA (formato da UE)
- Formatos de carteira de motorista da UE
- Formatos de passaporte europeu
- Todas as 48 variações de entidade em idiomas suportados
Manutenção: Atualizações da biblioteca de entidades são enviadas como parte do serviço gerenciado. Quando a Alemanha introduz um novo formato de identificador fiscal, os usuários recebem o reconhecedor sem precisar enviar um pedido de pull.
Extensão personalizada: Para identificadores específicos de organização que não estão na biblioteca, o construtor de entidade personalizado permite adicionar padrões sem código Python.
O Exemplo da Fintech Alemã
Uma fintech alemã precisa detectar IBANs, BICs, IDs fiscais alemães (Steuer-ID) e números de registro comercial alemães (Handelsregisternummer) em documentos de clientes.
Taxa de detecção padrão do Presidio para esses 4 tipos de entidade: 0%
Não é baixa precisão, não são falsos positivos — zero detecções. Nenhum dos 4 tipos de entidade aparece na biblioteca de entidades padrão do Presidio.
Escrevendo reconhecedores personalizados: 4 reconhecedores × 13 horas = 52 horas = €5,200 a taxas de engenharia.
Usando a biblioteca de entidades gerenciada com todos os 4 cobertos: €180/ano (plano Profissional).
Custo para alcançar a detecção em conformidade com o GDPR desses identificadores financeiros alemães:
- Rota do Presidio: €5,200 em engenharia + custos operacionais do Presidio
- Rota do serviço gerenciado: €180/ano, detectando todos os 4 de forma padrão
A lacuna é 28x no primeiro ano. Para cada ano de operação, o tempo de engenharia para manutenção de reconhecedores personalizados se soma ao custo do Presidio, enquanto o custo do serviço gerenciado permanece fixo.
Conclusão
Os ~40 reconhecedores padrão do Presidio atendem bem aos casos de uso centrados nos EUA. Para implantações na UE que exigem conformidade com o GDPR em identificadores específicos dos estados membros, a cobertura padrão é insuficiente. A lacuna é preenchida através do desenvolvimento de reconhecedores personalizados (caro, demorado) ou um serviço gerenciado que mantém a cobertura de entidades da UE como parte da assinatura.
Para organizações da UE onde a conformidade é inegociável e os recursos de engenharia são limitados, a biblioteca de entidades da UE pré-construída do serviço gerenciado elimina um projeto de desenvolvimento personalizado de 50+ horas antes da anonimização do primeiro documento.
Fontes: