anonym.legal

By · Last updated 2026-06-05

Назад к блогуGDPR и соблюдение

LGPD Бразилия: CPF, CNPJ и защита персональных данных

LGPD распространяется на 215 млн бразильцев, а ANPD начала серьёзное правоприменение в 2024 году. CPF обнаруживается инструментами на английском языке лишь с точностью 45%.

June 5, 20268 мин чтения
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Бразилия: CPF, CNPJ и защита персональных данных

Бразильский Закон об общей защите данных (Lei Geral de Proteção de Dados, LGPD) охватывает 215 миллионов человек. По охвату населения это третий в мире закон о защите данных. Он распространяется на большее число людей, чем Германия, Франция и Великобритания вместе взятые. В 2024 году Национальное управление по защите данных (Autoridade Nacional de Proteção de Dados, ANPD) вынесло первые крупные штрафы. Льготный период, последовавший за принятием LGPD в 2020 году, завершился.

Существует и техническая проблема. Документы по LGPD составлены на бразильском португальском языке. Национальные идентификаторы Бразилии отличаются от португальских и от идентификаторов любой другой страны.

Почему бразильские ПДн — особый случай

Федеральные и региональные системы цифровой идентификации Бразилии развивались независимо от европейских систем. Это привело к появлению уникального набора идентификаторов. Большинство NLP-инструментов обучены на английских или европейских данных и не способны обнаруживать местные идентификаторы.

CPF (Cadastro de Pessoas Físicas): 11-значный идентификационный номер налогоплательщика. Формат: XXX.XXX.XXX-XX. Содержит две контрольные цифры. Формула основана на двух отдельных математических шагах, оба из которых должны совпасть для того, чтобы CPF считался действительным.

Пробел в обнаружении значителен. Инструменты NLP на английском языке распознают CPF лишь с точностью 45% (ANPD, 2024). Этому есть два объяснения. Во-первых, инструменты, ищущие 11-значные числа без двухшагового алгоритма контрольной цифры, путают корректные CPF со случайными последовательностями. Во-вторых, CPF иногда отображается без формата XXX.XXX.XXX-XX — это происходит в выводе OCR и текстовых формах.

CNPJ (Cadastro Nacional da Pessoa Jurídica): 14-значный идентификационный номер компании. Формат: XX.XXX.XXX/XXXX-XX. Также содержит две контрольные цифры. Формула аналогична CPF, но не идентична ему.

RG (Registro Geral): Региональное удостоверение личности. Формат варьируется по штатам. Сан-Паулу использует 2 буквы и 5–9 цифр. Рио-де-Жанейро — 7–8 цифр с тире. Минас-Жерайс — 7–9 цифр. Остальные штаты имеют собственные форматы. Инструмент, знающий только формат одного штата, пропустит большинство номеров RG.

CNH (Carteira Nacional de Habilitação): 11-значный номер водительского удостоверения. Содержит одну контрольную цифру. Формат включает код округа.

Título de Eleitor: 12-значный идентификатор избирателя. Состоит из трёх частей: 8-значный идентификационный код, 2-значный код штата и 2 контрольные цифры.

Номер SUS (Cartão SUS): 15-значный идентификатор в системе государственного здравоохранения. Присваивается каждому жителю страны. Встречается во всех больничных и клинических записях.

PIS/PASEP: 11-значный номер участника социальной программы. Присутствует в каждом трудовом документе.

Стандарт анонимизации по LGPD

Статья 12 LGPD определяет анонимные данные. Стандарт: данные «не поддаются идентификации с учётом разумных технических средств, доступных на момент обработки». Это технологически относительный стандарт. Данные, считающиеся анонимными сегодня, могут утратить этот статус по мере совершенствования методов деанонимизации.

ANPD предоставляет дополнительные разъяснения. Удаления прямых идентификаторов — CPF и имени — недостаточно. Наборы квазиидентификаторов всё равно могут позволить повторную идентификацию. Возрастной диапазон, город, пол и должность в совокупности могут указать на конкретного человека. С этим нужно работать путём группировки или добавления шума.

Для обучающих данных ИИ ANPD требует выполнения одного из трёх условий. Первое: данные соответствуют стандарту статьи 12. Второе: каждый субъект данных дал явное согласие на конкретное использование в обучении. Третье: имеется документально подтверждённая законная цель.

Требования к португальскому языку

Бразильский португальский отличается от европейского. Лексика, правописание и формы документов не совпадают. NLP-модели, обученные на португальских текстах Португалии, достигают около 71% точности по сравнению с моделями, обученными на местных данных, — согласно технической оценке ANPD.

Ключевые различия для обнаружения ПДн:

  • Имена: Использование двойных фамилий и порядок имён отличаются от португальских.
  • Адреса: Коды CEP используют формат XXXXX-XXX. Этот формат уникален для страны и требует собственной логики обнаружения.
  • Терминология документов: «Carteira de Identidade» здесь против «Bilhete de Identidade» в Португалии. Названия ведомств также различаются.

Что необходимо для соответствия требованиям ANPD

Четыре технических требования охватывают соответствие нормам ANPD. Обнаружение CPF и CNPJ должно включать двухшаговую валидацию контрольных цифр. Обнаружение RG должно охватывать все штаты. Также обязательно обнаружение номера SUS и Título de Eleitor. NLP-модели должны быть обучены на местных португальских текстах.

См. наш глобальный справочник по обнаружению идентификаторов ПДн и обзор правоприменительных действий ANPD в 2024 году.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.