La Lei Geral de Proteção de Dados (LGPD) du Brésil est le troisième plus grand cadre de protection des données au monde en termes de population couverte — 215 millions de Brésiliens, plus que l'Allemagne, la France et le Royaume-Uni réunis. L'Autoridade Nacional de Proteção de Dados (ANPD) a émis ses premières actions d'application majeures en 2024, signalant la fin de la période de grâce qui a suivi l'adoption de la LGPD en 2020.
Le défi de conformité technique est distinct : le portugais brésilien est la langue des documents couverts par la LGPD, mais les identifiants nationaux brésiliens sont complètement différents des identifiants en portugais européen — et de tout autre système d'identification nationale dans le monde.
Pourquoi le PII brésilien est techniquement distinct
Les systèmes d'identification fédéraux et étatiques brésiliens ont évolué séparément des cadres d'identité numérique européens. Le résultat est un ensemble complexe d'identifiants que les outils NLP génériques — majoritairement formés sur des données en anglais ou en langues européennes — échouent à détecter :
CPF (Cadastro de Pessoas Físicas) : L'enregistrement des contribuables individuels à 11 chiffres est l'identifiant universel des citoyens brésiliens. Format : XXX.XXX.XXX-XX avec deux chiffres de contrôle. L'algorithme de vérification du CPF utilise deux calculs arithmétiques modulaires séparés — si les deux chiffres de contrôle correspondent, le CPF est valide.
Le problème technique : le CPF est détecté avec seulement 45 % de précision par des outils NLP formés en anglais (évaluation technique de l'ANPD 2024). Les échecs : les outils qui font correspondre des nombres à 11 chiffres sans la validation à deux étapes des chiffres de contrôle ne peuvent pas distinguer les numéros CPF valides des séquences aléatoires ; et le CPF apparaît dans des documents brésiliens sans le format standard XXX.XXX.XXX-XX dans certains contextes (sortie OCR, formulaires en texte brut).
CNPJ (Cadastro Nacional da Pessoa Jurídica) : Le numéro d'enregistrement d'entreprise à 14 chiffres. Format : XX.XXX.XXX/XXXX-XX avec deux chiffres de contrôle utilisant des algorithmes similaires (mais pas identiques) à ceux du CPF.
RG (Registro Geral) : Le document d'identité civil délivré par l'État au Brésil. Contrairement au CPF (fédéral, uniforme), le format RG varie selon l'État d'émission :
- São Paulo : 2 lettres + 5-9 chiffres (par exemple, MG-12.345.678)
- Rio de Janeiro : 7-8 chiffres avec tiret
- Minas Gerais : 7-9 chiffres
- Autres États : formats variés
Un outil qui ne reconnaît qu'un seul format RG d'État manque la majorité des numéros RG dans les documents brésiliens.
CNH (Carteira Nacional de Habilitação) : Numéro de permis de conduire à 11 chiffres avec chiffre de contrôle. La CNH est délivrée au niveau fédéral mais le format inclut le codage du district d'enregistrement.
Título de Eleitor (enregistrement des électeurs) : Numéro à 12 chiffres avec 3 composants — code d'identification (8 chiffres), code d'État (2 chiffres), chiffres de contrôle (2 chiffres).
Numéro SUS (Cartão SUS) : Numéro de système de santé unifié à 15 chiffres attribué à chaque Brésilien pour l'accès aux soins de santé publics. Apparaît dans les dossiers des hôpitaux publics et des soins primaires.
PIS/PASEP : Numéro de programme d'intégration sociale à 11 chiffres utilisé dans tous les dossiers d'emploi.
Norme d'anonymisation de la LGPD
L'article 12 de la LGPD définit les données anonymes comme des données "relatives à la personne concernée qui ne peuvent pas être identifiées, compte tenu de l'utilisation de moyens techniques raisonnables disponibles au moment du traitement." Il s'agit d'une norme relative à la technologie — ce qui est anonyme aujourd'hui peut ne pas l'être lorsque de futures techniques de ré-identification se développeront.
Les directives de l'ANPD précisent que l'anonymisation nécessite plus que la suppression des identifiants explicites (CPF, nom). Les combinaisons de quasi-identifiants (tranche d'âge, municipalité, sexe, profession) peuvent permettre la ré-identification et doivent être traitées par généralisation ou ajout de bruit.
Pour les données d'entraînement de l'IA, l'ANPD exige que les données utilisées pour former des LLM ou des modèles ML soient soit :
- Genuinely anonymisées (répondant à la norme technique de l'article 12), OU
- Avoir le consentement explicite de chaque personne concernée pour l'utilisation spécifique de formation, OU
- Qualifier sous un but légitime avec justification documentée
Exigences linguistiques en portugais brésilien
Le portugais brésilien diffère du portugais européen en vocabulaire, orthographe et conventions documentaires. Les modèles NLP formés sur le portugais européen (Portugal) fonctionnent à environ 71 % de la précision des modèles formés spécifiquement sur le texte en portugais brésilien (évaluation technique de l'ANPD).
Différences spécifiques pertinentes pour la détection de PII :
- Conventions de nom : Les noms brésiliens suivent des modèles différents des noms portugais. Les noms de famille brésiliens courants (Silva, Santos, Oliveira, Souza) sont les mêmes, mais les conventions de nommage (noms doubles, préférences d'ordre) diffèrent.
- Formats d'adresse : Les adresses brésiliennes utilisent "Rua," "Avenida," "Alameda," "Travessa" de manière similaire au Portugal, mais les codes postaux CEP (format à 8 chiffres : XXXXX-XXX) sont spécifiques au Brésil et nécessitent une reconnaissance des codes postaux brésiliens.
- Terminologie documentaire : Les types de documents brésiliens utilisent une terminologie différente de celle du portugais européen — "Carteira de Identidade" contre "Bilhete de Identidade" pour la carte d'identité nationale, différents noms d'agences gouvernementales tout au long.
Pour la conformité à la LGPD : validation à deux étapes des chiffres de contrôle pour le CPF et le CNPJ, reconnaissance de formats RG multi-états, détection du numéro SUS et du Título de Eleitor, et support des modèles NLP en portugais brésilien sont la base technique pour la conformité à l'ANPD.
Sources :