Бразилската Lei Geral de Proteção de Dados (LGPD) е третата по големина рамка за защита на данните в света по обхванато население — 215 милиона бразилци, повече от Германия, Франция и Обединеното кралство взети заедно. Autoridade Nacional de Proteção de Dados (ANPD) издаде първите си големи действия по принудително изпълнение през 2024 г., сигнализирайки края на гратисния период, последвал влизането в сила на LGPD от 2020 г.
Предизвикателството за техническо съответствие е отличително: бразилският португалски е езикът на документите, обхванати от LGPD, но бразилските национални идентификатори са напълно различни от европейските португалски идентификатори — и от всяка друга национална система за идентификация в света.
Защо бразилската PII е технически различна
Бразилските федерални и щатски системи за идентификация се развиха отделно от европейските рамки за цифрова идентичност. Резултатът е сложен набор от идентификатори, които генеричните NLP инструменти — повечето обучени на данни на английски или европейски език — не успяват да открият:
CPF (Cadastro de Pessoas Físicas): 11-цифрената индивидуална регистрация на данъкоплатец е универсалният граждански идентификатор на Бразилия. Формат: XXX.XXX.XXX-XX с две контролни цифри. Алгоритъмът за контролна цифра на CPF използва две отделни модулни аритметични изчисления — ако и двете контролни цифри съвпадат, CPF е валиден.
Техническият проблем: CPF е открит само с 45% точност от обучени на английски NLP инструменти (ANPD техническа оценка 2024 г.). Неуспехите: инструменти, които съвпадат по образец с 11-цифрени числа без проверка на контролната цифра в две стъпки, не могат да разграничат валидни CPF числа от произволни последователности; и CPF се появява в бразилски документи без стандартното форматиране XXX.XXX.XXX-XX в някои контексти (OCR изход, обикновени текстови форми).
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-цифреният регистрационен номер на дружеството. Формат: XX.XXX.XXX/XXXX-XX с две контролни цифри, използващи подобни (но не идентични) алгоритми на CPF.
RG (Registro Geral): Държавен граждански документ за самоличност на Бразилия. За разлика от CPF (федерален, униформен), форматът RG варира според държавата на издаване:
- Сао Пауло: 2 букви + 5-9 цифри (напр. MG-12.345.678)
- Рио де Жанейро: 7-8 цифри с тире
- Minas Gerais: 7-9 цифри
- Други състояния: различни формати
Инструмент, който разпознава RG формата само на една държава, пропуска повечето RG номера в бразилските документи.
CNH (Carteira Nacional de Habilitação): 11-цифрен номер на шофьорска книжка с контролна цифра. CNH се издава федерално, но форматът включва кодиране на района за регистрация.
Título de Eleitor (регистрация на избиратели): 12-цифрен номер с 3 компонента — идентификационен код (8 цифри), код на държавата (2 цифри), контролни цифри (2 цифри).
SUS номер (Cartão SUS): 15-цифрен унифициран номер на здравната система, присвоен на всеки бразилец за достъп до обществено здравеопазване. Появява се в регистрите на държавните болници и първичната медицинска помощ.
PIS/PASEP: 11-цифрен номер на програмата за социална интеграция, използван във всички трудови досиета.
LGPD Стандарт за анонимизиране
LGPD Член 12 определя анонимните данни като данни, „свързани със субекта на данните, които не могат да бъдат идентифицирани, като се има предвид използването на разумни технически средства, налични по време на обработката“. Това е стандарт, свързан с технологията - това, което е анонимно днес, може да не е анонимно, когато се разработят бъдещи техники за повторна идентификация.
Ръководството на ANPD изяснява, че анонимизирането изисква повече от премахване на изрични идентификатори (CPF, име). Комбинациите от квазиидентификатори (възрастова група, община, пол, професия) могат да позволят повторна идентификация и трябва да бъдат адресирани чрез обобщаване или добавяне на шум.
За данни за обучение на AI ANPD изисква данните, използвани за обучение на LLM или ML модели:
- Наистина е анонимизиран (отговаря на техническия стандарт на член 12), ИЛИ
- Има изрично съгласие от всеки субект на данни за конкретното използване на обучение, ИЛИ
- Квалифицира се като легитимна цел с документирана обосновка
Изисквания за бразилски португалски език
Бразилският португалски се различава от европейския португалски по лексика, правопис и конвенции в документите. Моделите NLP, обучени на европейски португалски (Португалия), работят с приблизително 71% от точността на моделите, обучени специално на текст на бразилски португалски (техническа оценка ANPD).
Специфични разлики, свързани с откриването на PII:
- Конвенции за имената: бразилските имена следват различни модели от португалските имена. Често срещаните бразилски фамилни имена (Силва, Сантос, Оливейра, Соуза) са едни и същи, но конвенциите за именуване (двойни фамилни имена, предпочитания за ред) се различават.
- **Формати на адреси: ** Бразилските адреси използват "Rua," "Avenida," "Alameda," "Travessa" подобно на Португалия, но пощенските кодове на CEP (8-цифрен формат: XXXXX-XXX) са специфични за Бразилия и изискват разпознаване на бразилския пощенски код.
- Терминология на документи: бразилските типове документи използват различна терминология от европейския португалски — „Carteira de Identidade“ срещу „Bilhete de Identidade“ за национална лична карта, различни имена на държавни агенции навсякъде.
За съответствие с LGPD: CPF и CNPJ с проверка на контролна цифра в две стъпки, разпознаване на RG формат с множество състояния, SUS номер и откриване на Título de Eleitor и поддръжка на бразилски португалски модел NLP са техническата основа за съответствие с ANPD.
Източници: