LGPD Brazylia: CPF, CNPJ i ochrona danych
Brazylijska ustawa o ochronie danych osobowych — Lei Geral de Proteção de Dados (LGPD) — obejmuje 215 milionów osób. To trzecia co do wielkości ustawa o ochronie danych na świecie pod względem liczby chronionych obywateli. Dotyczy łącznie większej liczby osób niż Niemcy, Francja i Wielka Brytania razem wzięte. Autoridade Nacional de Proteção de Dados (ANPD) nałożyła pierwsze poważne kary w 2024 roku. Okres przejściowy po wejściu ustawy w życie w 2020 roku dobiegł końca.
Dodatkowym wyzwaniem jest kwestia techniczna. Dokumenty objęte LGPD są sporządzane po brazylijsku — w odmianie języka portugalskiego innej od europejskiej. Krajowe numery identyfikacyjne w Brazylii różnią się od tych stosowanych w Portugalii i w każdym innym kraju.
Dlaczego brazylijskie dane osobowe stanowią odrębną kategorię
Federalne i stanowe systemy identyfikacji w Brazylii rozwijały się niezależnie od europejskich systemów tożsamości cyfrowej. Efektem jest unikalny zestaw identyfikatorów. Większość narzędzi NLP jest uczona na danych anglojęzycznych lub europejskich i nie radzi sobie z wykrywaniem lokalnych dokumentów.
CPF (Cadastro de Pessoas Físicas): Jedenastocyfrowy numer podatnika. Format: XXX.XXX.XXX-XX. Zawiera dwie cyfry kontrolne. Algorytm weryfikacji składa się z dwóch oddzielnych kroków matematycznych — oba muszą być spełnione, aby numer CPF był prawidłowy.
Skala problemu z wykrywaniem jest znaczna. Narzędzia NLP uczone na tekstach angielskich wykrywają CPF jedynie z 45-procentową skutecznością (ANPD, 2024). Przyczyny są dwie. Po pierwsze, narzędzia dopasowujące ciągi jedenastu cyfr bez dwuetapowej weryfikacji cyfr kontrolnych mylą prawidłowe numery CPF z losowymi sekwencjami. Po drugie, CPF bywa zapisywany bez formatu XXX.XXX.XXX-XX — dotyczy to zwłaszcza wyników OCR i formularzy w postaci zwykłego tekstu.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Czternastocyfrowy numer identyfikacyjny przedsiębiorstwa. Format: XX.XXX.XXX/XXXX-XX. Również zawiera dwie cyfry kontrolne; algorytm jest podobny do CPF, lecz nie identyczny.
RG (Registro Geral): Stanowy dowód osobisty. Format zależy od stanu. São Paulo stosuje 2 litery i 5–9 cyfr. Rio de Janeiro — 7–8 cyfr z myślnikiem. Minas Gerais — 7–9 cyfr. Pozostałe stany posiadają własne formaty. Narzędzie obsługujące format tylko jednego stanu przeoczy większość numerów RG.
CNH (Carteira Nacional de Habilitação): Jedenastocyfrowy numer prawa jazdy z jedną cyfrą kontrolną i kodem okręgowym.
Título de Eleitor: Dwunastocyfrowy numer karty wyborczej, składający się z ośmiocyfrowego kodu ID, dwucyfrowego kodu stanu i dwóch cyfr kontrolnych.
Numer SUS (Cartão SUS): Piętnastocyfrowy identyfikator w publicznym systemie ochrony zdrowia. Przydzielany każdemu obywatelowi kraju — figuruje we wszystkich dokumentach szpitalnych i ambulatoryjnych.
PIS/PASEP: Jedenastocyfrowy numer programu socjalnego, widniejący w każdej dokumentacji zatrudnienia.
Standard anonimizacji według LGPD
Artykuł 12 LGPD definiuje dane anonimowe jako takie, których „nie można zidentyfikować przy użyciu rozsądnych środków technicznych dostępnych w momencie przetwarzania”. Jest to standard relatywny technologicznie — dane uznane dziś za anonimowe mogą utracić ten status wraz z rozwojem metod re-identyfikacji.
ANPD wydała dodatkowe wytyczne. Usunięcie bezpośrednich identyfikatorów, takich jak CPF czy imię i nazwisko, nie wystarczy. Zestawy quasi-identyfikatorów nadal mogą umożliwić re-identyfikację. Połączenie przedziału wiekowego, miasta, płci i zawodu może wskazać konkretną osobę. Konieczne jest ich uogólnienie lub dodanie szumu statystycznego.
W przypadku danych przeznaczonych do uczenia modeli AI ANPD wymaga spełnienia jednego z trzech warunków: dane spełniają standard z artykułu 12; każda osoba, której dane dotyczą, wyraziła wyraźną zgodę na konkretne zastosowanie do celów uczenia; istnieje udokumentowany i ważny cel przetwarzania.
Wymagania językowe — brazylijska odmiana języka portugalskiego
Portugalski brazylijski różni się od europejskiego słownictwem, ortografią i wzorami dokumentów. Modele NLP uczone na tekstach z Portugalii osiągają około 71% skuteczności modeli uczonych na lokalnych tekstach — wynika to z oceny technicznej ANPD.
Kluczowe różnice dla wykrywania danych osobowych:
- Imiona i nazwiska: Użycie podwójnych nazwisk i kolejność członów nazwiska różnią się od praktyki stosowanej w Portugalii.
- Adresy: Kody pocztowe CEP mają format XXXXX-XXX — unikalny dla Brazylii i wymagający odrębnej logiki wykrywania.
- Nazwy dokumentów: W Brazylii używa się określenia „Carteira de Identidade”, podczas gdy w Portugalii — „Bilhete de Identidade”. Nazwy organów administracyjnych również się różnią.
Wymogi techniczne zgodności z ANPD
Zgodność z ANPD opiera się na czterech wymaganiach technicznych. Wykrywanie CPF i CNPJ musi obejmować dwuetapową weryfikację cyfr kontrolnych. Wykrywanie RG musi pokrywać formaty wszystkich stanów. Konieczna jest także obsługa numeru SUS i Título de Eleitor. Modele NLP muszą być uczone na brazylijskich tekstach w języku portugalskim.
Zob. nasz przewodnik po globalnym wykrywaniu identyfikatorów PII oraz działaniach egzekucyjnych ANPD w 2024 roku.