anonym.legal
Назад к блогуGDPR и соблюдение

LGPD и бразильский португальский: что ANPD требует...

LGPD охватывает 215 млн бразильцев, а ANPD начало масштабное правоприменение в 2024 году.

April 21, 20268 мин чтения
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Бразильский Закон о защите персональных данных (Lei Geral de Proteção de Dados, LGPD) — третья по охвату населения система защиты данных в мире: 215 миллионов бразильцев — больше, чем Германия, Франция и Великобритания вместе взятые. В 2024 году Национальное управление по защите данных (ANPD) провело первые крупные правоприменительные действия, ознаменовав окончание льготного периода, последовавшего за принятием LGPD в 2020 году.

Технический аспект соответствия отличается своей спецификой: бразильский португальский — язык документов, подпадающих под LGPD, однако бразильские национальные идентификаторы полностью отличаются от идентификаторов европейского португальского — и от любой другой национальной системы идентификации в мире.

Почему бразильские персональные данные технически уникальны

Бразильские федеральные и штатные системы идентификации развивались независимо от европейских систем цифровой идентичности. Результат — сложный набор идентификаторов, которые универсальные инструменты NLP, в основном обученные на английских или европейских языковых данных, не распознают:

CPF (Cadastro de Pessoas Físicas): 11-значный номер налогоплательщика — универсальный идентификатор гражданина Бразилии. Формат: XXX.XXX.XXX-XX с двумя контрольными цифрами. Алгоритм контрольных цифр CPF использует два отдельных вычисления по модульной арифметике — если обе контрольные цифры совпадают, CPF считается действительным.

Техническая проблема: CPF обнаруживается инструментами NLP, обученными на английском языке, лишь с точностью 45% (техническая оценка ANPD 2024). Причины сбоев: инструменты, ищущие 11-значные числа без двухэтапной проверки контрольных цифр, не могут отличить правильные номера CPF от случайных последовательностей; кроме того, CPF в бразильских документах в ряде случаев встречается без стандартного форматирования XXX.XXX.XXX-XX (в выводе OCR, простых текстовых формах).

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-значный регистрационный номер компании. Формат: XX.XXX.XXX/XXXX-XX с двумя контрольными цифрами по схожим (но не идентичным) алгоритмам, что и у CPF.

RG (Registro Geral): Гражданское удостоверение личности, выдаваемое штатом. В отличие от CPF (федерального, единообразного), формат RG варьируется в зависимости от штата выдачи:

  • Сан-Паулу: 2 буквы + 5–9 цифр (например, MG-12.345.678)
  • Рио-де-Жанейро: 7–8 цифр с дефисом
  • Минас-Жерайс: 7–9 цифр
  • Другие штаты: различные форматы

Инструмент, распознающий только формат RG одного штата, пропустит большинство номеров RG в бразильских документах.

CNH (Carteira Nacional de Habilitação): 11-значный номер водительского удостоверения с контрольной цифрой. CNH выдаётся на федеральном уровне, однако формат включает кодирование регистрационного округа.

Título de Eleitor (избирательный бюллетень): 12-значный номер с тремя компонентами: идентификационный код (8 цифр), код штата (2 цифры), контрольные цифры (2 цифры).

Номер SUS (Cartão SUS): 15-значный номер единой системы здравоохранения, присваиваемый каждому бразильцу для доступа к государственному медицинскому обслуживанию. Фигурирует во всех записях государственных больниц и первичной медицинской помощи.

PIS/PASEP: 11-значный номер программы социальной интеграции, используемый во всех трудовых документах.

Стандарт анонимизации LGPD

Статья 12 LGPD определяет анонимные данные как «данные, связанные с субъектом данных, которые не могут быть идентифицированы с учётом разумных технических средств, доступных на момент обработки». Это технологически относительный стандарт — то, что сегодня является анонимным, может не быть таковым при появлении будущих методов повторной идентификации.

Руководство ANPD разъясняет, что анонимизация требует большего, чем просто удаление явных идентификаторов (CPF, имени). Комбинации квазиидентификаторов (возрастной диапазон, муниципалитет, пол, профессия) могут обеспечить повторную идентификацию и должны быть обработаны путём обобщения или добавления шума.

Для обучающих данных ИИ ANPD требует, чтобы данные, используемые для обучения LLM или ML-моделей, либо:

  • Были действительно анонимизированы (соответствуя техническому стандарту статьи 12), ЛИБО
  • Имели явное согласие каждого субъекта данных на конкретное использование в обучении, ЛИБО
  • Подпадали под законную цель с задокументированным обоснованием

Требования к бразильскому португальскому языку

Бразильский португальский отличается от европейского португальского (Португалии) словарным запасом, орфографией и документными конвенциями. Модели NLP, обученные на европейском португальском, работают примерно с точностью 71% от точности моделей, обученных специально на бразильском португальском тексте (техническая оценка ANPD).

Конкретные различия, значимые для обнаружения персональных данных:

  • Именные конвенции: Бразильские имена следуют иным шаблонам, чем португальские. Распространённые бразильские фамилии (Silva, Santos, Oliveira, Souza) те же, однако именные конвенции (двойные фамилии, предпочтения порядка) различаются.
  • Форматы адресов: Бразильские адреса используют «Rua», «Avenida», «Alameda», «Travessa» аналогично Португалии, однако почтовые индексы CEP (8-значный формат: XXXXX-XXX) специфичны для Бразилии и требуют бразильской системы распознавания почтовых кодов.
  • Терминология документов: Бразильские типы документов используют иную терминологию по сравнению с европейским португальским — «Carteira de Identidade» вместо «Bilhete de Identidade» для национального удостоверения, разные названия государственных органов.

Для соответствия LGPD: CPF и CNPJ с двухэтапной проверкой контрольных цифр, распознавание форматов RG нескольких штатов, обнаружение номеров SUS и Título de Eleitor, а также поддержка языковой модели бразильского португальского — технический минимум для соответствия ANPD.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.