LGPD Brésil : CPF, CNPJ et protection des données
La Lei Geral de Proteção de Dados (LGPD) du Brésil couvre 215 millions de personnes. C'est la troisième loi de protection des données au monde par population. Elle couvre plus de personnes que l'Allemagne, la France et le Royaume-Uni réunis. L'Autoridade Nacional de Proteção de Dados (ANPD) a émis ses premières amendes importantes en 2024. La période de grâce après l'entrée en vigueur de la LGPD en 2020 est terminée.
Il y a aussi un défi technique. Les documents LGPD sont en portugais brésilien. Les identifiants nationaux au Brésil diffèrent de ceux du Portugal. Ils diffèrent aussi des identifiants de tout autre pays.
Pourquoi les données personnelles brésiliennes sont différentes
Les systèmes d'identité fédéraux et étatiques du Brésil ont évolué séparément des systèmes d'identité numérique européens. Cela a créé un ensemble unique d'identifiants. La plupart des outils NLP sont entraînés sur des données anglaises ou européennes. Ils ne détectent pas les identifiants locaux.
CPF (Cadastro de Pessoas Físicas) : Le numéro de contribuable à 11 chiffres. Format : XXX.XXX.XXX-XX. Il a deux chiffres de contrôle. La formule utilise deux étapes de calcul séparées. Les deux doivent correspondre pour que le CPF soit valide.
L'écart de détection est important. Les outils NLP entraînés en anglais ne détectent le CPF qu'avec 45 % de précision (ANPD, 2024). Deux raisons expliquent cela. Premièrement, les outils qui recherchent des numéros à 11 chiffres sans la logique des deux chiffres de contrôle confondent les numéros CPF valides avec des séquences aléatoires. Deuxièmement, le CPF n'a parfois pas le format XXX.XXX.XXX-XX. Cela arrive dans les sorties OCR et les formulaires en texte brut.
CNPJ (Cadastro Nacional da Pessoa Jurídica) : Le numéro d'identité d'entreprise à 14 chiffres. Format : XX.XXX.XXX/XXXX-XX. Il a aussi deux chiffres de contrôle. La formule ressemble au CPF mais n'est pas identique.
RG (Registro Geral) : La carte d'identité civile étatique. Le format varie selon l'État. São Paulo utilise 2 lettres et 5–9 chiffres. Rio de Janeiro utilise 7–8 chiffres avec un tiret. Minas Gerais utilise 7–9 chiffres. Les autres États ont leurs propres formats. Un outil qui ne connaît que le format RG d'un seul État manquera la plupart des numéros RG.
CNH (Carteira Nacional de Habilitação) : Le numéro de permis de conduire à 11 chiffres. Il a un chiffre de contrôle. Le format inclut un code de district.
Título de Eleitor : Le numéro d'identité d'électeur à 12 chiffres. Il a trois parties : un code d'identité de 8 chiffres, un code d'État de 2 chiffres et 2 chiffres de contrôle.
Numéro SUS (Cartão SUS) : L'identifiant de santé publique à 15 chiffres. Chaque personne dans le pays en reçoit un. Il apparaît dans tous les dossiers hospitaliers et de clinique.
PIS/PASEP : Le numéro de programme social à 11 chiffres. Il apparaît dans chaque dossier d'emploi.
Norme d'anonymisation LGPD
L'article 12 de la LGPD définit les données anonymes. La norme : les données « ne peuvent pas être identifiées, compte tenu des moyens techniques raisonnables au moment du traitement. » Il s'agit d'une norme relative à la technologie. Les données anonymisées aujourd'hui pourraient ne pas le rester si les méthodes de ré-identification s'améliorent.
L'ANPD ajoute des précisions. Supprimer les identifiants directs comme le CPF et le nom ne suffit pas. Des groupes de quasi-identifiants peuvent encore permettre la ré-identification. La tranche d'âge, la ville, le sexe et la profession ensemble peuvent identifier une personne. Ces éléments doivent être traités par regroupement ou ajout de bruit.
Pour les données d'entraînement IA, l'ANPD exige l'une de trois conditions. Premièrement : les données répondent à la norme de l'article 12. Deuxièmement : chaque personne concernée a donné son consentement explicite pour l'utilisation spécifique en formation. Troisièmement : il y a un but documenté valide.
Exigences en matière de langue
Le portugais brésilien diffère du portugais européen. Les mots, l'orthographe et les formes de documents ne sont pas les mêmes. Les modèles NLP entraînés sur du texte portugais du Portugal atteignent environ 71 % de la précision des modèles entraînés sur du texte local. C'est ce que montre l'évaluation technique de l'ANPD.
Différences clés pour la détection des données personnelles :
- Noms : L'usage du double nom et l'ordre des noms diffèrent du Portugal.
- Adresses : Les codes CEP utilisent le format XXXXX-XXX. Ce format est unique au pays. Il nécessite sa propre logique de détection.
- Termes de documents : « Carteira de Identidade » ici vs. « Bilhete de Identidade » au Portugal. Les noms d'agences diffèrent aussi.
Ce dont la conformité ANPD a besoin
Quatre exigences techniques couvrent la conformité ANPD. La détection CPF et CNPJ doit inclure une validation en deux étapes des chiffres de contrôle. La détection RG doit couvrir tous les États. La détection du numéro SUS et du Título de Eleitor est aussi requise. Les modèles NLP doivent être entraînés sur du texte portugais local.
Voir notre guide sur la détection globale des identifiants de données personnelles et les actions d'application LGPD en 2024.