anonym.legal

By · Last updated 2026-05-18

Назад к блогуGDPR и соблюдение

LGPD и бразильский португальский: что ANPD требует...

LGPD охватывает 215 млн бразильцев, а ANPD начало масштабное правоприменение в 2024 году.

May 18, 20268 мин чтения
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

Бразильский Закон о защите персональных данных (Lei Geral de Proteção de Dados, LGPD) — третья по охвату населения система защиты данных в мире: 215 миллионов бразильцев — больше, чем Германия, Франция и Великобритания вместе взятые. В 2024 году Национальное управление по защите данных (ANPD) провело первые крупные правоприменительные действия, ознаменовав окончание льготного периода, последовавшего за принятием LGPD в 2020 году.

Технический аспект соответствия отличается своей спецификой: бразильский португальский — язык документов, подпадающих под LGPD, однако бразильские национальные идентификаторы полностью отличаются от идентификаторов европейского португальского — и от любой другой национальной системы идентификации в мире.

Почему бразильские персональные данные технически уникальны

Бразильские федеральные и штатные системы идентификации развивались независимо от европейских систем цифровой идентичности. Результат — сложный набор идентификаторов, которые универсальные инструменты NLP, в основном обученные на английских или европейских языковых данных, не распознают:

CPF (Cadastro de Pessoas Físicas): 11-значный номер налогоплательщика — универсальный идентификатор гражданина Бразилии. Формат: XXX.XXX.XXX-XX с двумя контрольными цифрами. Алгоритм контрольных цифр CPF использует два отдельных вычисления по модульной арифметике — если обе контрольные цифры совпадают, CPF считается действительным.

Техническая проблема: CPF обнаруживается инструментами NLP, обученными на английском языке, лишь с точностью 45% (техническая оценка ANPD 2024). Причины сбоев: инструменты, ищущие 11-значные числа без двухэтапной проверки контрольных цифр, не могут отличить правильные номера CPF от случайных последовательностей; кроме того, CPF в бразильских документах в ряде случаев встречается без стандартного форматирования XXX.XXX.XXX-XX (в выводе OCR, простых текстовых формах).

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-значный регистрационный номер компании. Формат: XX.XXX.XXX/XXXX-XX с двумя контрольными цифрами по схожим (но не идентичным) алгоритмам, что и у CPF.

RG (Registro Geral): Гражданское удостоверение личности, выдаваемое штатом. В отличие от CPF (федерального, единообразного), формат RG варьируется в зависимости от штата выдачи:

  • Сан-Паулу: 2 буквы + 5–9 цифр (например, MG-12.345.678)
  • Рио-де-Жанейро: 7–8 цифр с дефисом
  • Минас-Жерайс: 7–9 цифр
  • Другие штаты: различные форматы

Инструмент, распознающий только формат RG одного штата, пропустит большинство номеров RG в бразильских документах.

CNH (Carteira Nacional de Habilitação): 11-значный номер водительского удостоверения с контрольной цифрой. CNH выдаётся на федеральном уровне, однако формат включает кодирование регистрационного округа.

Título de Eleitor (избирательный бюллетень): 12-значный номер с тремя компонентами: идентификационный код (8 цифр), код штата (2 цифры), контрольные цифры (2 цифры).

Номер SUS (Cartão SUS): 15-значный номер единой системы здравоохранения, присваиваемый каждому бразильцу для доступа к государственному медицинскому обслуживанию. Фигурирует во всех записях государственных больниц и первичной медицинской помощи.

PIS/PASEP: 11-значный номер программы социальной интеграции, используемый во всех трудовых документах.

Стандарт анонимизации LGPD

Статья 12 LGPD определяет анонимные данные как «данные, связанные с субъектом данных, которые не могут быть идентифицированы с учётом разумных технических средств, доступных на момент обработки». Это технологически относительный стандарт — то, что сегодня является анонимным, может не быть таковым при появлении будущих методов повторной идентификации.

Руководство ANPD разъясняет, что анонимизация требует большего, чем просто удаление явных идентификаторов (CPF, имени). Комбинации квазиидентификаторов (возрастной диапазон, муниципалитет, пол, профессия) могут обеспечить повторную идентификацию и должны быть обработаны путём обобщения или добавления шума.

Для обучающих данных ИИ ANPD требует, чтобы данные, используемые для обучения LLM или ML-моделей, либо:

  • Были действительно анонимизированы (соответствуя техническому стандарту статьи 12), ЛИБО
  • Имели явное согласие каждого субъекта данных на конкретное использование в обучении, ЛИБО
  • Подпадали под законную цель с задокументированным обоснованием

Требования к бразильскому португальскому языку

Бразильский португальский отличается от европейского португальского (Португалии) словарным запасом, орфографией и документными конвенциями. Модели NLP, обученные на европейском португальском, работают примерно с точностью 71% от точности моделей, обученных специально на бразильском португальском тексте (техническая оценка ANPD).

Конкретные различия, значимые для обнаружения персональных данных:

  • Именные конвенции: Бразильские имена следуют иным шаблонам, чем португальские. Распространённые бразильские фамилии (Silva, Santos, Oliveira, Souza) те же, однако именные конвенции (двойные фамилии, предпочтения порядка) различаются.
  • Форматы адресов: Бразильские адреса используют «Rua», «Avenida», «Alameda», «Travessa» аналогично Португалии, однако почтовые индексы CEP (8-значный формат: XXXXX-XXX) специфичны для Бразилии и требуют бразильской системы распознавания почтовых кодов.
  • Терминология документов: Бразильские типы документов используют иную терминологию по сравнению с европейским португальским — «Carteira de Identidade» вместо «Bilhete de Identidade» для национального удостоверения, разные названия государственных органов.

Для соответствия LGPD: CPF и CNPJ с двухэтапной проверкой контрольных цифр, распознавание форматов RG нескольких штатов, обнаружение номеров SUS и Título de Eleitor, а также поддержка языковой модели бразильского португальского — технический минимум для соответствия ANPD.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.