LGPD Brasil: CPF, CNPJ e Proteção de Dados
A Lei Geral de Proteção de Dados (LGPD) do Brasil cobre 215 milhões de pessoas. É a terceira maior lei de proteção de dados do mundo por população. Cobre mais pessoas do que Alemanha, França e Reino Unido juntos. A Autoridade Nacional de Proteção de Dados (ANPD) emitiu suas primeiras multas importantes em 2024. O período de carência após a entrada em vigor da LGPD em 2020 acabou.
Há também um desafio técnico. Os documentos cobertos pela LGPD são em português brasileiro. Os documentos de identidade no Brasil diferem dos de Portugal. Eles também diferem dos identificadores de qualquer outro país.
Por que os dados pessoais brasileiros são diferentes
Os sistemas de identificação federais e estaduais do Brasil evoluíram separados dos sistemas de identidade digital europeus. Isso criou um conjunto único de identificadores. A maioria das ferramentas de NLP é treinada em dados em inglês ou europeus. Elas não detectam os IDs locais.
CPF (Cadastro de Pessoas Físicas): O número de contribuinte de 11 dígitos. Formato: XXX.XXX.XXX-XX. Tem dois dígitos verificadores. A fórmula usa dois passos de cálculo separados. Ambos devem coincidir para que o CPF seja válido.
A lacuna de detecção é grande. Ferramentas de NLP treinadas em inglês detectam o CPF com apenas 45% de precisão (ANPD, 2024). Dois motivos explicam isso. Primeiro, ferramentas que buscam números de 11 dígitos sem a lógica dos dois passos dos dígitos verificadores confundem CPFs válidos com sequências aleatórias. Segundo, o CPF às vezes aparece sem o formato XXX.XXX.XXX-XX. Isso ocorre em saídas de OCR e formulários em texto simples.
CNPJ (Cadastro Nacional da Pessoa Jurídica): O número de identificação de empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX. Também tem dois dígitos verificadores. A fórmula é parecida com a do CPF, mas não é idêntica.
RG (Registro Geral): O documento de identidade civil emitido pelo estado. O formato varia por estado. São Paulo usa 2 letras e 5–9 dígitos. Rio de Janeiro usa 7–8 dígitos com um traço. Minas Gerais usa 7–9 dígitos. Outros estados têm seus próprios formatos. Uma ferramenta que conhece apenas o formato do RG de um estado perderá a maioria dos números de RG.
CNH (Carteira Nacional de Habilitação): O número de habilitação de 11 dígitos. Tem um dígito verificador. O formato inclui um código de circunscrição.
Título de Eleitor: O número do título de eleitor de 12 dígitos. Tem três partes: um código de identificação de 8 dígitos, um código de estado de 2 dígitos e 2 dígitos verificadores.
Número do SUS (Cartão SUS): O identificador de saúde pública de 15 dígitos. Toda pessoa no país recebe um. Aparece em todos os registros hospitalares e de postos de saúde.
PIS/PASEP: O número do programa social de 11 dígitos. Aparece em todo registro de emprego.
Padrão de Anonimização da LGPD
O Artigo 12 da LGPD define dados anônimos. O padrão: dados "que não podem ser identificados, considerando os meios técnicos razoáveis disponíveis na época do tratamento." É um padrão relativo à tecnologia. Dados anonimizados hoje podem não permanecer anônimos conforme os métodos de re-identificação evoluem.
A ANPD acrescenta mais orientações. Remover identificadores diretos como CPF e nome não é suficiente. Grupos de quase-identificadores ainda podem permitir a re-identificação. Faixa etária, cidade, gênero e profissão juntos podem identificar uma pessoa. Esses devem ser tratados por agrupamento ou adição de ruído.
Para dados de treinamento de IA, a ANPD exige uma de três condições. Primeira: os dados atendem ao padrão do Artigo 12. Segunda: cada titular deu consentimento explícito para o uso específico no treinamento. Terceira: há uma finalidade documentada válida.
Requisitos de Idioma
O português brasileiro difere do português europeu. As palavras, a grafia e as formas dos documentos não são as mesmas. Modelos de NLP treinados em texto de Portugal atingem cerca de 71% da precisão de modelos treinados em texto local. Isso vem da avaliação técnica da ANPD.
Diferenças importantes para a detecção de dados pessoais:
- Nomes: O uso de sobrenome duplo e a ordem dos nomes diferem de Portugal.
- Endereços: Os códigos CEP usam o formato XXXXX-XXX. Esse formato é único do país. Requer lógica de detecção própria.
- Termos de documentos: "Carteira de Identidade" aqui vs. "Bilhete de Identidade" em Portugal. Os nomes de órgãos também diferem.
O que a conformidade com a ANPD exige
Quatro requisitos técnicos cobrem a conformidade com a ANPD. A detecção de CPF e CNPJ deve incluir validação de dígitos verificadores em dois passos. A detecção de RG deve cobrir todos os estados. A detecção do número do SUS e do Título de Eleitor também é necessária. Os modelos de NLP devem ser treinados em texto em português local.
Veja nosso guia sobre detecção global de identificadores de dados pessoais e ações de fiscalização da LGPD em 2024.