anonym.legal

By · Last updated 2026-06-05

Назад към блогаGDPR и съответствие

LGPD Бразилия: CPF, CNPJ и защита на данните

LGPD обхваща 215 млн. бразилци, а ANPD започна сериозно прилагане на закона от 2024 г. CPF се разпознава само с 45% точност от инструменти, обучени на английски.

June 5, 20268 мин. четене
Brazil LGPDCPF detectionBrazilian Portuguese PIIANPD complianceSouth America data protection

LGPD Бразилия: CPF, CNPJ и защита на данните

Бразилският Закон за общата защита на данните (LGPD) обхваща 215 милиона души. Той е третият по големина закон за защита на данните в света по население — обхваща повече хора от Германия, Франция и Великобритания взети заедно. Националният орган за защита на данните (ANPD) издаде първите си значими глоби през 2024 г. Гратисният период след влизането на LGPD в сила от 2020 г. приключи.

Съществува и технически проблем. Документите по LGPD са на бразилски португалски. Националните идентификатори в Бразилия се различават от тези в Португалия. Те се различават и от идентификаторите на всяка друга страна.

Защо бразилските лични данни са различни

Федералните и щатски системи за идентификатори в Бразилия се развиха отделно от европейските системи за цифрова идентичност. Това доведе до уникален набор от идентификатори. Повечето NLP инструменти са обучени на английски или европейски данни. Те не успяват да разпознаят местните идентификатори.

CPF (Cadastro de Pessoas Fisicas): 11-цифреният данъчен номер. Формат: XXX.XXX.XXX-XX. Съдържа две контролни цифри. Формулата използва две отделни математически стъпки. И двете трябва да съвпадат, за да е валиден CPF.

Пропастта при разпознаването е голяма. Инструменти, обучени на английски, разпознават CPF само с 45% точност (ANPD, 2024 г.). Две причини обясняват това. Първо, инструменти, съпоставящи 11-цифрени числа без логиката за двустъпкова контролна цифра, объркват валидни CPF числа с произволни поредици. Второ, CPF понякога не е в стандартния формат XXX.XXX.XXX-XX — случва се при OCR изход и формуляри с обикновен текст.

CNPJ (Cadastro Nacional da Pessoa Juridica): 14-цифреният идентификационен номер на компания. Формат: XX.XXX.XXX/XXXX-XX. Също съдържа две контролни цифри. Формулата е подобна на CPF, но не идентична.

RG (Registro Geral): Щатската гражданска лична карта. Форматът варира по щати. Сао Пауло използва 2 букви и 5-9 цифри. Рио де Жанейро използва 7-8 цифри с тире. Минас Жерайс използва 7-9 цифри. Другите щати имат свои формати. Инструмент, познаващ само формата на един щат, ще пропусне повечето RG числа.

CNH (Carteira Nacional de Habilitacao): 11-цифреният номер на шофьорската книжка. Съдържа една контролна цифра. Форматът включва код на район.

Titulo de Eleitor: 12-цифреният идентификатор на избирател. Съдържа три части: 8-цифрен идентификационен код, 2-цифрен щатски код и 2 контролни цифри.

Номер на SUS (Cartao SUS): 15-цифреният идентификатор в публичното здравеопазване. Всеки човек в страната получава такъв. Среща се в цялата болнична и клинична документация.

PIS/PASEP: 11-цифреният номер на социалната програма. Среща се в цялата трудова документация.

Стандарт за анонимизация по LGPD

Член 12 от LGPD дефинира анонимните данни. Стандартът гласи: данни, "неспособни да идентифицират, като се имат предвид разумни технически средства към момента на обработката". Това е стандарт, относителен спрямо технологиите. Данните, анонимни днес, може да не останат такива, когато методите за повторна идентификация се усъвършенстват.

ANPD добавя допълнителни насоки. Премахването само на преките идентификатори като CPF и ime не е достатъчно. Групи от квази-идентификатори все още могат да позволят повторна идентификация. Възрастов диапазон, град, пол и работа заедно могат да идентифицират дадено лице. С тях трябва да се работи чрез групиране или добавяне на шум.

За данни за обучение на AI, ANPD изисква едно от три условия. Първо: данните отговарят на стандарта по член 12. Второ: всеки субект на данни е дал изрично съгласие за конкретната употреба за обучение. Трето: налице е валидна документирана цел.

Изисквания за португалски език

Бразилският португалски се различава от европейския португалски. Думите, правописът и документните форми не са еднакви. NLP модели, обучени на португалски от Португалия, постигат около 71% от точността на модели, обучени на местен текст. Това произтича от техническата оценка на ANPD.

Ключови разлики за разпознаване на лични данни:

  • Имена: Употребата на двойни фамилни имена и редът на имената се различават от Португалия.
  • Адреси: CEP кодовете използват формат XXXXX-XXX. Този формат е уникален за страната. Изисква своя собствена логика за разпознаване.
  • Термини в документи: "Carteira de Identidade" тук срещу "Bilhete de Identidade" в Португалия. Имената на агенциите също се различават.

Какво изисква съответствието с ANPD

Четири технически изисквания осигуряват съответствие с ANPD. Разпознаването на CPF и CNPJ трябва да включва двустъпкова валидация на контролната цифра. Необходимо е разпознаване на RG за всички щати. Изисква се и разпознаване на номер SUS и Titulo de Eleitor. NLP моделите трябва да бъдат обучени на местен португалски текст.

Вижте нашето ръководство за глобално разпознаване на идентификатори на лични данни и мерките за прилагане на LGPD от 2024 г..

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.