Die brasilianische Lei Geral de Proteção de Dados (LGPD) ist das drittgrößte Datenschutzrahmenwerk der Welt nach der abgedeckten Bevölkerung — 215 Millionen Brasilianer, mehr als Deutschland, Frankreich und das Vereinigte Königreich zusammen. Die Autoridade Nacional de Proteção de Dados (ANPD) hat 2024 ihre ersten größeren Durchsetzungsmaßnahmen ergriffen, was das Ende der Karenzzeit signalisiert, die auf die Verabschiedung der LGPD im Jahr 2020 folgte.
Die technische Compliance-Herausforderung ist einzigartig: Brasilianisches Portugiesisch ist die Sprache der von der LGPD abgedeckten Dokumente, aber brasilianische nationale Identifikatoren sind völlig anders als europäische portugiesische Identifikatoren — und von jedem anderen nationalen Identifikationssystem der Welt.
Warum brasilianisches PII technisch unterschiedlich ist
Die brasilianischen bundesstaatlichen und staatlichen Identifikationssysteme haben sich unabhängig von europäischen digitalen Identitätsrahmen entwickelt. Das Ergebnis ist ein komplexes Set von Identifikatoren, die generische NLP-Tools — die meisten auf Englisch oder europäischen Sprachdaten trainiert — nicht erkennen können:
CPF (Cadastro de Pessoas Físicas): Die 11-stellige individuelle Steueridentifikationsnummer ist der universelle Bürgeridentifikator Brasiliens. Format: XXX.XXX.XXX-XX mit zwei Prüfziffern. Der Prüfziffernalgorithmus des CPF verwendet zwei separate Berechnungen der modularen Arithmetik — wenn beide Prüfziffern übereinstimmen, ist der CPF gültig.
Das technische Problem: CPF wird von auf Englisch trainierten NLP-Tools nur mit 45 % Genauigkeit erkannt (technische Bewertung der ANPD 2024). Die Mängel: Tools, die 11-stellige Zahlen ohne die zweistufige Prüfziffernvalidierung erkennen, können gültige CPF-Nummern nicht von zufälligen Sequenzen unterscheiden; und CPF erscheint in brasilianischen Dokumenten in einigen Kontexten ohne das Standardformat XXX.XXX.XXX-XX (OCR-Ausgabe, einfache Textformulare).
CNPJ (Cadastro Nacional da Pessoa Jurídica): Die 14-stellige Unternehmensregistrierungsnummer. Format: XX.XXX.XXX/XXXX-XX mit zwei Prüfziffern, die ähnliche (aber nicht identische) Algorithmen wie der CPF verwenden.
RG (Registro Geral): Das staatlich ausgestellte Zivilidentitätsdokument Brasiliens. Im Gegensatz zum CPF (bundesweit, einheitlich) variiert das RG-Format je nach Ausstellungsstaat:
- São Paulo: 2 Buchstaben + 5-9 Ziffern (z.B. MG-12.345.678)
- Rio de Janeiro: 7-8 Ziffern mit Bindestrich
- Minas Gerais: 7-9 Ziffern
- Andere Staaten: verschiedene Formate
Ein Tool, das nur ein RG-Format eines Bundesstaates erkennt, verpasst die Mehrheit der RG-Nummern in brasilianischen Dokumenten.
CNH (Carteira Nacional de Habilitação): 11-stellige Führerscheinnummer mit Prüfziffer. Die CNH wird bundesweit ausgestellt, aber das Format umfasst die Kodierung des Registrierungsbezirks.
Título de Eleitor (Wählerregistrierung): 12-stellige Nummer mit 3 Komponenten — Identifikationscode (8 Ziffern), Staatscode (2 Ziffern), Prüfziffern (2 Ziffern).
SUS-Nummer (Cartão SUS): 15-stellige Nummer des einheitlichen Gesundheitssystems, die jedem Brasilianer für den Zugang zur öffentlichen Gesundheitsversorgung zugewiesen wird. Erscheint in öffentlichen Krankenhaus- und Primärversorgungsunterlagen.
PIS/PASEP: 11-stellige Nummer des Programms zur sozialen Integration, die in allen Beschäftigungsunterlagen verwendet wird.
LGPDs Anonymisierungsstandard
Artikel 12 der LGPD definiert anonyme Daten als Daten, "die sich auf die betroffene Person beziehen und nicht identifiziert werden können, unter Berücksichtigung der zum Zeitpunkt der Verarbeitung verfügbaren angemessenen technischen Mittel." Dies ist ein technologieabhängiger Standard — was heute anonym ist, könnte bei zukünftigen Re-Identifizierungstechniken nicht mehr anonym sein.
Die Richtlinien der ANPD stellen klar, dass Anonymisierung mehr erfordert als das Entfernen expliziter Identifikatoren (CPF, Name). Kombinationen von Quasi-Identifikatoren (Altersgruppe, Gemeinde, Geschlecht, Beruf) können eine Re-Identifizierung ermöglichen und müssen durch Generalisierung oder Hinzufügung von Rauschen behandelt werden.
Für Trainingsdaten von KI verlangt die ANPD, dass Daten, die zum Training von LLMs oder ML-Modellen verwendet werden, entweder:
- Echte Anonymisierung aufweisen (gemäß dem technischen Standard von Artikel 12), ODER
- Eine ausdrückliche Zustimmung jedes Betroffenen für die spezifische Trainingsnutzung haben, ODER
- Unter einen legitimen Zweck mit dokumentierter Begründung fallen
Anforderungen an die brasilianische Portugiesischsprache
Brasilianisches Portugiesisch unterscheidet sich von europäischem Portugiesisch in Wortschatz, Rechtschreibung und Dokumentenkonventionen. NLP-Modelle, die auf europäisches Portugiesisch (Portugal) trainiert sind, erreichen etwa 71 % der Genauigkeit von Modellen, die speziell auf brasilianischem Portugiesisch trainiert sind (technische Bewertung der ANPD).
Spezifische Unterschiede, die für die PII-Erkennung relevant sind:
- Namenskonventionen: Brasilianische Namen folgen anderen Mustern als portugiesische Namen. Häufige brasilianische Nachnamen (Silva, Santos, Oliveira, Souza) sind gleich, aber die Namenskonventionen (doppelte Nachnamen, Reihenfolgepräferenzen) unterscheiden sich.
- Adressformate: Brasilianische Adressen verwenden "Rua," "Avenida," "Alameda," "Travessa" ähnlich wie in Portugal, aber die CEP-Postleitzahlen (8-stelliges Format: XXXXX-XXX) sind Brasilien-spezifisch und erfordern die Erkennung brasilianischer Postleitzahlen.
- Dokumententerminologie: Brasilianische Dokumenttypen verwenden eine andere Terminologie als europäisches Portugiesisch — "Carteira de Identidade" vs. "Bilhete de Identidade" für nationale ID, unterschiedliche Namen von Regierungsbehörden.
Für die LGPD-Compliance: CPF und CNPJ mit zweistufiger Prüfziffernvalidierung, Multi-State RG-Format-Erkennung, SUS-Nummer und Título de Eleitor-Erkennung sowie Unterstützung von NLP-Modellen in brasilianischem Portugiesisch sind die technischen Grundlagen für die Compliance der ANPD.
Quellen: