La Lei Geral de Proteção de Dados (LGPD) de Brasil es el tercer marco de protección de datos más grande del mundo por población cubierta: 215 millones de brasileños, más que Alemania, Francia y el Reino Unido juntos. La Autoridade Nacional de Proteção de Dados (ANPD) emitió sus primeras acciones importantes de aplicación en 2024, señalando el fin del período de gracia que siguió a la promulgación de la LGPD en 2020.
El desafío de cumplimiento técnico es distintivo: el portugués brasileño es el idioma de los documentos cubiertos por la LGPD, pero los identificadores nacionales brasileños son completamente diferentes de los identificadores del portugués europeo y de cualquier otro sistema de identificación nacional en el mundo.
Por qué el PII Brasileño es Técnicamente Distinto
Los sistemas de identificación federales y estatales de Brasil evolucionaron por separado de los marcos de identidad digital europeos. El resultado es un conjunto complejo de identificadores que las herramientas de procesamiento de lenguaje natural genéricas, la mayoría entrenadas en datos en inglés o en lenguas europeas, no logran detectar:
CPF (Cadastro de Pessoas Físicas): El registro de contribuyente individual de 11 dígitos es el identificador universal de ciudadanos de Brasil. Formato: XXX.XXX.XXX-XX con dos dígitos de verificación. El algoritmo de dígitos de verificación del CPF utiliza dos cálculos de aritmética modular separados: si ambos dígitos de verificación coinciden, el CPF es válido.
El problema técnico: el CPF se detecta con solo un 45% de precisión por herramientas de NLP entrenadas en inglés (evaluación técnica de la ANPD 2024). Las fallas: las herramientas que hacen coincidencias de patrones con números de 11 dígitos sin la validación de dígitos de verificación en dos pasos no pueden distinguir números de CPF válidos de secuencias aleatorias; y el CPF aparece en documentos brasileños sin el formato estándar XXX.XXX.XXX-XX en algunos contextos (salida de OCR, formularios de texto plano).
CNPJ (Cadastro Nacional da Pessoa Jurídica): El número de registro de la empresa de 14 dígitos. Formato: XX.XXX.XXX/XXXX-XX con dos dígitos de verificación utilizando algoritmos similares (pero no idénticos) al del CPF.
RG (Registro Geral): El documento de identidad civil emitido por el estado de Brasil. A diferencia del CPF (federal, uniforme), el formato del RG varía según el estado de emisión:
- São Paulo: 2 letras + 5-9 dígitos (por ejemplo, MG-12.345.678)
- Río de Janeiro: 7-8 dígitos con guion
- Minas Gerais: 7-9 dígitos
- Otros estados: varios formatos
Una herramienta que reconoce solo el formato de RG de un estado se pierde la mayoría de los números de RG en documentos brasileños.
CNH (Carteira Nacional de Habilitação): Número de licencia de conducir de 11 dígitos con dígito de verificación. La CNH se emite a nivel federal, pero el formato incluye codificación del distrito de registro.
Título de Eleitor (registro de votantes): Número de 12 dígitos con 3 componentes: código de identificación (8 dígitos), código del estado (2 dígitos), dígitos de verificación (2 dígitos).
Número SUS (Cartão SUS): Número de 15 dígitos del sistema de salud unificado asignado a cada brasileño para el acceso a la atención médica pública. Aparece en registros de hospitales públicos y atención primaria.
PIS/PASEP: Número de 11 dígitos del programa de integración social utilizado en todos los registros de empleo.
Estándar de Anonimización de la LGPD
El Artículo 12 de la LGPD define los datos anónimos como datos "relacionados con el sujeto de datos que no pueden ser identificados, considerando el uso de medios técnicos razonables disponibles en el momento del procesamiento." Este es un estándar relativo a la tecnología: lo que es anónimo hoy puede no serlo cuando se desarrollen técnicas futuras de re-identificación.
La guía de la ANPD aclara que la anonimización requiere más que eliminar identificadores explícitos (CPF, nombre). Las combinaciones de cuasi-identificadores (rango de edad, municipio, género, profesión) pueden permitir la re-identificación y deben abordarse mediante generalización o adición de ruido.
Para los datos de entrenamiento de IA, la ANPD requiere que los datos utilizados para entrenar LLMs o modelos de ML:
- Sean genuinamente anonimizados (cumpliendo con el estándar técnico del Artículo 12), O
- Tengan consentimiento explícito de cada sujeto de datos para el uso específico de entrenamiento, O
- Califiquen bajo un propósito legítimo con justificación documentada.
Requisitos del Idioma Portugués Brasileño
El portugués brasileño difiere del portugués europeo en vocabulario, ortografía y convenciones documentales. Los modelos de NLP entrenados en portugués europeo (Portugal) rinden aproximadamente al 71% de la precisión de los modelos entrenados específicamente en texto en portugués brasileño (evaluación técnica de la ANPD).
Diferencias específicas relevantes para la detección de PII:
- Convenciones de nombres: Los nombres brasileños siguen patrones diferentes a los nombres portugueses. Los apellidos brasileños comunes (Silva, Santos, Oliveira, Souza) son los mismos, pero las convenciones de nombres (apellidos dobles, preferencias de orden) difieren.
- Formatos de dirección: Las direcciones brasileñas utilizan "Rua," "Avenida," "Alameda," "Travessa" de manera similar a Portugal, pero los códigos postales CEP (formato de 8 dígitos: XXXXX-XXX) son específicos de Brasil y requieren reconocimiento de códigos postales brasileños.
- Terminología documental: Los tipos de documentos brasileños utilizan una terminología diferente del portugués europeo: "Carteira de Identidade" vs. "Bilhete de Identidade" para la identificación nacional, diferentes nombres de agencias gubernamentales en todo.
Para el cumplimiento de la LGPD: CPF y CNPJ con validación de dígitos de verificación en dos pasos, reconocimiento de formato de RG multiestatal, detección de número SUS y Título de Eleitor, y soporte de modelo NLP en portugués brasileño son la base técnica para el cumplimiento de la ANPD.
Fuentes: