LGPD Бразилия: CPF, CNPJ и защита на данните
Бразилският Закон за общата защита на данните (LGPD) обхваща 215 милиона души. Той е третият по големина закон за защита на данните в света по население — обхваща повече хора от Германия, Франция и Великобритания взети заедно. Националният орган за защита на данните (ANPD) издаде първите си значими глоби през 2024 г. Гратисният период след влизането на LGPD в сила от 2020 г. приключи.
Съществува и технически проблем. Документите по LGPD са на бразилски португалски. Националните идентификатори в Бразилия се различават от тези в Португалия. Те се различават и от идентификаторите на всяка друга страна.
Защо бразилските лични данни са различни
Федералните и щатски системи за идентификатори в Бразилия се развиха отделно от европейските системи за цифрова идентичност. Това доведе до уникален набор от идентификатори. Повечето NLP инструменти са обучени на английски или европейски данни. Те не успяват да разпознаят местните идентификатори.
CPF (Cadastro de Pessoas Fisicas): 11-цифреният данъчен номер. Формат: XXX.XXX.XXX-XX. Съдържа две контролни цифри. Формулата използва две отделни математически стъпки. И двете трябва да съвпадат, за да е валиден CPF.
Пропастта при разпознаването е голяма. Инструменти, обучени на английски, разпознават CPF само с 45% точност (ANPD, 2024 г.). Две причини обясняват това. Първо, инструменти, съпоставящи 11-цифрени числа без логиката за двустъпкова контролна цифра, объркват валидни CPF числа с произволни поредици. Второ, CPF понякога не е в стандартния формат XXX.XXX.XXX-XX — случва се при OCR изход и формуляри с обикновен текст.
CNPJ (Cadastro Nacional da Pessoa Juridica): 14-цифреният идентификационен номер на компания. Формат: XX.XXX.XXX/XXXX-XX. Също съдържа две контролни цифри. Формулата е подобна на CPF, но не идентична.
RG (Registro Geral): Щатската гражданска лична карта. Форматът варира по щати. Сао Пауло използва 2 букви и 5-9 цифри. Рио де Жанейро използва 7-8 цифри с тире. Минас Жерайс използва 7-9 цифри. Другите щати имат свои формати. Инструмент, познаващ само формата на един щат, ще пропусне повечето RG числа.
CNH (Carteira Nacional de Habilitacao): 11-цифреният номер на шофьорската книжка. Съдържа една контролна цифра. Форматът включва код на район.
Titulo de Eleitor: 12-цифреният идентификатор на избирател. Съдържа три части: 8-цифрен идентификационен код, 2-цифрен щатски код и 2 контролни цифри.
Номер на SUS (Cartao SUS): 15-цифреният идентификатор в публичното здравеопазване. Всеки човек в страната получава такъв. Среща се в цялата болнична и клинична документация.
PIS/PASEP: 11-цифреният номер на социалната програма. Среща се в цялата трудова документация.
Стандарт за анонимизация по LGPD
Член 12 от LGPD дефинира анонимните данни. Стандартът гласи: данни, "неспособни да идентифицират, като се имат предвид разумни технически средства към момента на обработката". Това е стандарт, относителен спрямо технологиите. Данните, анонимни днес, може да не останат такива, когато методите за повторна идентификация се усъвършенстват.
ANPD добавя допълнителни насоки. Премахването само на преките идентификатори като CPF и ime не е достатъчно. Групи от квази-идентификатори все още могат да позволят повторна идентификация. Възрастов диапазон, град, пол и работа заедно могат да идентифицират дадено лице. С тях трябва да се работи чрез групиране или добавяне на шум.
За данни за обучение на AI, ANPD изисква едно от три условия. Първо: данните отговарят на стандарта по член 12. Второ: всеки субект на данни е дал изрично съгласие за конкретната употреба за обучение. Трето: налице е валидна документирана цел.
Изисквания за португалски език
Бразилският португалски се различава от европейския португалски. Думите, правописът и документните форми не са еднакви. NLP модели, обучени на португалски от Португалия, постигат около 71% от точността на модели, обучени на местен текст. Това произтича от техническата оценка на ANPD.
Ключови разлики за разпознаване на лични данни:
- Имена: Употребата на двойни фамилни имена и редът на имената се различават от Португалия.
- Адреси: CEP кодовете използват формат XXXXX-XXX. Този формат е уникален за страната. Изисква своя собствена логика за разпознаване.
- Термини в документи: "Carteira de Identidade" тук срещу "Bilhete de Identidade" в Португалия. Имената на агенциите също се различават.
Какво изисква съответствието с ANPD
Четири технически изисквания осигуряват съответствие с ANPD. Разпознаването на CPF и CNPJ трябва да включва двустъпкова валидация на контролната цифра. Необходимо е разпознаване на RG за всички щати. Изисква се и разпознаване на номер SUS и Titulo de Eleitor. NLP моделите трябва да бъдат обучени на местен португалски текст.
Вижте нашето ръководство за глобално разпознаване на идентификатори на лични данни и мерките за прилагане на LGPD от 2024 г..