LGPD Brasilien: CPF, CNPJ und Datenschutz
Brasiliens Lei Geral de Proteção de Dados (LGPD) gilt für 215 Millionen Menschen. Sie ist das drittgrößte Datenschutzgesetz der Welt nach Bevölkerungsgröße. Sie umfasst mehr Menschen als Deutschland, Frankreich und das Vereinigte Königreich zusammen. Die Autoridade Nacional de Proteção de Dados (ANPD) verhängte 2024 ihre ersten größeren Bußgelder. Die Schonfrist nach dem Inkrafttreten der LGPD im Jahr 2020 ist vorbei.
Es gibt auch eine technische Herausforderung. LGPD-Dokumente sind auf brasilianischem Portugiesisch verfasst. Nationale IDs in Brasilien unterscheiden sich von denen in Portugal. Sie unterscheiden sich auch von IDs anderer Länder.
Warum brasilianische PII anders ist
Brasiliens Bundes- und Landes-ID-Systeme entwickelten sich getrennt von europäischen digitalen Identitätssystemen. Das schuf eine einzigartige Gruppe von Kennungen. Die meisten NLP-Tools werden auf englischen oder europäischen Daten trainiert. Sie erkennen lokale IDs nicht.
CPF (Cadastro de Pessoas Físicas): Die 11-stellige Steuernummer. Format: XXX.XXX.XXX-XX. Sie hat zwei Prüfziffern. Die Formel verwendet zwei separate Rechenschritte. Beide müssen übereinstimmen, damit die CPF gültig ist.
Die Erkennungslücke ist groß. Auf Englisch trainierte NLP-Tools erkennen CPF nur mit 45 % Genauigkeit (ANPD, 2024). Zwei Gründe erklären dies. Erstens verwechseln Tools, die 11-stellige Zahlen ohne die zwei Prüfziffernschritte abgleichen, gültige CPF-Nummern mit Zufallsfolgen. Zweitens fehlt CPF manchmal das Format XXX.XXX.XXX-XX. Das kommt in OCR-Ausgaben und Klartextformularen vor.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Die 14-stellige Unternehmens-ID. Format: XX.XXX.XXX/XXXX-XX. Sie hat ebenfalls zwei Prüfziffern. Die Formel ähnelt CPF, ist aber nicht identisch.
RG (Registro Geral): Der staatliche Personalausweis. Das Format variiert je nach Bundesstaat. São Paulo verwendet 2 Buchstaben und 5–9 Ziffern. Rio de Janeiro verwendet 7–8 Ziffern mit einem Bindestrich. Minas Gerais verwendet 7–9 Ziffern. Andere Bundesstaaten haben eigene Formate. Ein Tool, das nur das RG-Format eines Bundesstaates kennt, verpasst die meisten RG-Nummern.
CNH (Carteira Nacional de Habilitação): Die 11-stellige Führerscheinnummer. Sie hat eine Prüfziffer. Das Format enthält einen Bezirkscode.
Título de Eleitor: Die 12-stellige Wähler-ID. Sie hat drei Teile: einen 8-stelligen ID-Code, einen 2-stelligen Staatscode und 2 Prüfziffern.
SUS-Nummer (Cartão SUS): Die 15-stellige öffentliche Gesundheits-ID. Jede Person im Land erhält eine. Sie erscheint in allen Krankenhaus- und Klinikakten.
PIS/PASEP: Die 11-stellige Sozialprogrammnummer. Sie erscheint in jedem Beschäftigungsnachweis.
LGPD-Anonymisierungsstandard
LGPD-Artikel 12 definiert anonyme Daten. Der Standard: Daten „können nicht identifiziert werden, unter Berücksichtigung vertretbarer technischer Mittel zum Zeitpunkt der Verarbeitung." Das ist ein technologierelativer Standard. Heute anonymisierte Daten bleiben möglicherweise nicht anonym, wenn Re-ID-Methoden sich verbessern.
Die ANPD gibt weitere Hinweise. Das Entfernen direkter Kennungen wie CPF und Name reicht nicht aus. Gruppen von Quasi-Kennungen können trotzdem eine Re-ID ermöglichen. Altersgruppe, Stadt, Geschlecht und Beruf zusammen können eine Person identifizieren. Diese müssen durch Gruppierung oder Rauschen behandelt werden.
Für KI-Trainingsdaten verlangt die ANPD eine von drei Bedingungen. Erstens: Daten erfüllen den Artikel-12-Standard. Zweitens: Jede betroffene Person gab ausdrückliche Einwilligung für den spezifischen Trainingsgebrauch. Drittens: Es gibt einen gültigen dokumentierten Zweck.
Anforderungen an die Sprachverarbeitung
Brasilianisches Portugiesisch unterscheidet sich von europäischem Portugiesisch. Wörter, Rechtschreibung und Dokumentenformen sind nicht gleich. NLP-Modelle, die auf portugiesischem Text aus Portugal trainiert wurden, erreichen etwa 71 % der Genauigkeit von Modellen, die auf lokalem Text trainiert wurden. Das zeigt die ANPD-Technikbewertung.
Wesentliche Unterschiede für die PII-Erkennung:
- Namen: Doppel-Nachnamen und Namenreihenfolge unterscheiden sich von Portugal.
- Adressen: CEP-Codes verwenden das Format XXXXX-XXX. Dieses Format ist einzigartig für das Land. Es braucht eigene Erkennungslogik.
- Dokumentenbegriffe: „Carteira de Identidade" hier vs. „Bilhete de Identidade" in Portugal. Behördennamen unterscheiden sich ebenfalls.
Was ANPD-Compliance braucht
Vier technische Anforderungen decken die ANPD-Compliance ab. Die CPF- und CNPJ-Erkennung muss eine zweistufige Prüfziffernvalidierung enthalten. Die RG-Erkennung muss alle Bundesstaaten abdecken. SUS-Nummer und Título de Eleitor-Erkennung sind ebenfalls erforderlich. NLP-Modelle müssen auf lokalem Portugiesischtext trainiert werden.
Siehe unseren Leitfaden zur globalen PII-Kennungserkennung und zu LGPD-Durchsetzungsmaßnahmen 2024.