LGPD Бразилия: CPF, CNPJ и защита персональных данных
Бразильский Закон об общей защите данных (Lei Geral de Proteção de Dados, LGPD) охватывает 215 миллионов человек. По охвату населения это третий в мире закон о защите данных. Он распространяется на большее число людей, чем Германия, Франция и Великобритания вместе взятые. В 2024 году Национальное управление по защите данных (Autoridade Nacional de Proteção de Dados, ANPD) вынесло первые крупные штрафы. Льготный период, последовавший за принятием LGPD в 2020 году, завершился.
Существует и техническая проблема. Документы по LGPD составлены на бразильском португальском языке. Национальные идентификаторы Бразилии отличаются от португальских и от идентификаторов любой другой страны.
Почему бразильские ПДн — особый случай
Федеральные и региональные системы цифровой идентификации Бразилии развивались независимо от европейских систем. Это привело к появлению уникального набора идентификаторов. Большинство NLP-инструментов обучены на английских или европейских данных и не способны обнаруживать местные идентификаторы.
CPF (Cadastro de Pessoas Físicas): 11-значный идентификационный номер налогоплательщика. Формат: XXX.XXX.XXX-XX. Содержит две контрольные цифры. Формула основана на двух отдельных математических шагах, оба из которых должны совпасть для того, чтобы CPF считался действительным.
Пробел в обнаружении значителен. Инструменты NLP на английском языке распознают CPF лишь с точностью 45% (ANPD, 2024). Этому есть два объяснения. Во-первых, инструменты, ищущие 11-значные числа без двухшагового алгоритма контрольной цифры, путают корректные CPF со случайными последовательностями. Во-вторых, CPF иногда отображается без формата XXX.XXX.XXX-XX — это происходит в выводе OCR и текстовых формах.
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-значный идентификационный номер компании. Формат: XX.XXX.XXX/XXXX-XX. Также содержит две контрольные цифры. Формула аналогична CPF, но не идентична ему.
RG (Registro Geral): Региональное удостоверение личности. Формат варьируется по штатам. Сан-Паулу использует 2 буквы и 5–9 цифр. Рио-де-Жанейро — 7–8 цифр с тире. Минас-Жерайс — 7–9 цифр. Остальные штаты имеют собственные форматы. Инструмент, знающий только формат одного штата, пропустит большинство номеров RG.
CNH (Carteira Nacional de Habilitação): 11-значный номер водительского удостоверения. Содержит одну контрольную цифру. Формат включает код округа.
Título de Eleitor: 12-значный идентификатор избирателя. Состоит из трёх частей: 8-значный идентификационный код, 2-значный код штата и 2 контрольные цифры.
Номер SUS (Cartão SUS): 15-значный идентификатор в системе государственного здравоохранения. Присваивается каждому жителю страны. Встречается во всех больничных и клинических записях.
PIS/PASEP: 11-значный номер участника социальной программы. Присутствует в каждом трудовом документе.
Стандарт анонимизации по LGPD
Статья 12 LGPD определяет анонимные данные. Стандарт: данные «не поддаются идентификации с учётом разумных технических средств, доступных на момент обработки». Это технологически относительный стандарт. Данные, считающиеся анонимными сегодня, могут утратить этот статус по мере совершенствования методов деанонимизации.
ANPD предоставляет дополнительные разъяснения. Удаления прямых идентификаторов — CPF и имени — недостаточно. Наборы квазиидентификаторов всё равно могут позволить повторную идентификацию. Возрастной диапазон, город, пол и должность в совокупности могут указать на конкретного человека. С этим нужно работать путём группировки или добавления шума.
Для обучающих данных ИИ ANPD требует выполнения одного из трёх условий. Первое: данные соответствуют стандарту статьи 12. Второе: каждый субъект данных дал явное согласие на конкретное использование в обучении. Третье: имеется документально подтверждённая законная цель.
Требования к португальскому языку
Бразильский португальский отличается от европейского. Лексика, правописание и формы документов не совпадают. NLP-модели, обученные на португальских текстах Португалии, достигают около 71% точности по сравнению с моделями, обученными на местных данных, — согласно технической оценке ANPD.
Ключевые различия для обнаружения ПДн:
- Имена: Использование двойных фамилий и порядок имён отличаются от португальских.
- Адреса: Коды CEP используют формат XXXXX-XXX. Этот формат уникален для страны и требует собственной логики обнаружения.
- Терминология документов: «Carteira de Identidade» здесь против «Bilhete de Identidade» в Португалии. Названия ведомств также различаются.
Что необходимо для соответствия требованиям ANPD
Четыре технических требования охватывают соответствие нормам ANPD. Обнаружение CPF и CNPJ должно включать двухшаговую валидацию контрольных цифр. Обнаружение RG должно охватывать все штаты. Также обязательно обнаружение номера SUS и Título de Eleitor. NLP-модели должны быть обучены на местных португальских текстах.
См. наш глобальный справочник по обнаружению идентификаторов ПДн и обзор правоприменительных действий ANPD в 2024 году.