O Problema da Ferramenta de PII Centrada nos EUA
A maioria das ferramentas de detecção de PII foi construída nos Estados Unidos para formatos de dados dos EUA. O Número de Seguro Social — 9 dígitos no formato AAA-BB-CCCC, com números de área documentados, números de grupo e números de série — foi o principal alvo de design. Ferramentas construídas em torno da detecção de SSN detectam SSNs de forma confiável. Elas também podem detectar números de telefone, endereços de e-mail e formatos de carteira de motorista dos EUA. Elas sistematicamente ignoram os formatos de identificador usados em todos os outros países.
O GDPR não reconhece a centralidade dos EUA como uma isenção de conformidade. Um Steuer-ID (Steuerliche Identifikationsnummer) alemão é um número de identificação fiscal de 11 dígitos emitido pelo Bundeszentralamt für Steuern, com um algoritmo de verificação específico validado contra um dígito de verificação. Ele identifica residentes alemães de forma tão pessoal quanto um SSN identifica americanos. O Artigo 4 do GDPR define dados pessoais como "qualquer informação relacionada a uma pessoa natural identificada ou identificável" — um Steuer-ID é dado pessoal sob o GDPR, independentemente de sua ferramenta de PII conhecer o formato.
Multas do GDPR foram emitidas por exposição de PII específica de países da UE em sistemas de dados que processaram dados de residentes da UE usando ferramentas configuradas apenas para formatos dos EUA. A lacuna de conformidade não é teórica — ela produziu ações de fiscalização.
O Cenário de Identificadores Europeus
A escala da lacuna de cobertura de identificadores europeus:
Alemanha: Steuer-ID (11 dígitos, dígito de verificação), Sozialversicherungsnummer (12 dígitos, formato estrutural), Reisepass (passaporte de 10 dígitos com códigos específicos de autoridade emissora)
França: NIR/Numero de Securite Sociale (15 dígitos codificando gênero [1], ano de nascimento [2], mês de nascimento [2], departamento [2], comuna [3], número de registro [3], chave de verificação [2]), Carte Vitale (cartão de 15 dígitos NIR), SIRET (identificador de empresa de 14 dígitos), SIREN (9 dígitos)
Suécia: Personnummer (10 dígitos, formato YYMMDD-XXXX com os últimos dois dígitos identificando o condado de nascimento em números mais antigos), Samordningsnummer (número de coordenação para não residentes, formato semelhante com dia + 60)
Noruega: Fodselsnummer (11 dígitos, formato DDMMYYNNNKK com gênero nos dígitos do meio), D-nummer (número de coordenação, dia + 40)
Brasil: CPF (Cadastro de Pessoas Físicas, 11 dígitos com dois dígitos de verificação), CNPJ (identificador de empresa de 14 dígitos)
Índia: Aadhaar (identidade biométrica de 12 dígitos, com dígito de verificação do algoritmo Verhoeff), PAN (alfanumérico de 10 caracteres para imposto de renda)
EAU: Emirates ID (15 dígitos: 784-ano de nascimento-sequência-verificação)
Um gerente de RH global processando dados de folha de pagamento para funcionários em 12 países precisa de uma ferramenta que detecte todos os formatos de ID nacional dos 12 países em uma única passagem — sem configurar 12 ferramentas específicas para cada país ou manter 12 bibliotecas de regex separadas.
A Arquitetura de Tipo de Entidade de 285+
A biblioteca de tipos de entidade de 285+ cobre o conjunto completo de identificadores dos estados membros da UE, principais identificadores da APAC (Aadhaar, PAN, CPF, CNPJ, Emirates ID, ID de cidadão tailandês) e identificadores dos EUA (SSN, EIN, carteira de motorista por estado) em um único mecanismo de detecção. A biblioteca é mantida e atualizada à medida que os formatos específicos dos países evoluem.
Fontes: