LGPD برزیل: CPF، CNPJ و حفاظت از داده
قانون حفاظت عمومی داده برزیل (Lei Geral de Proteção de Dados - LGPD) ۲۱۵ میلیون نفر را پوشش میدهد. این قانون سومین قانون بزرگ حفاظت داده در جهان از نظر جمعیت است و جمعیتی بیشتر از آلمان، فرانسه و انگلستان روی هم را تحت پوشش دارد. مرجع ملی حفاظت داده (ANPD) در سال ۲۰۲۴ اولین جریمههای اصلی خود را صادر کرد. دوره عبور پس از تصویب LGPD در سال ۲۰۲۰ به پایان رسیده است.
یک چالش فنی هم وجود دارد: اسناد LGPD به پرتغالی برزیلی نوشته میشوند. شناسههای ملی در برزیل با آنچه در پرتغال یا هر کشور دیگری داریم متفاوت است.
چرا PII برزیلی متفاوت است
سیستمهای شناسایی فدرال و ایالتی برزیل مستقل از سیستمهای هویت دیجیتال اروپایی توسعه یافتند. این مجموعه شناسههای منحصربهفردی ایجاد کرد. اکثر ابزارهای NLP بر روی دادههای انگلیسی یا اروپایی آموزش دیدهاند و در تشخیص شناسههای محلی شکست میخورند:
CPF (Cadastro de Pessoas Físicas): شماره مالیاتی ۱۱ رقمی با فرمت XXX.XXX.XXX-XX. دو رقم کنترل دارد. فرمول از دو مرحله ریاضی جداگانه استفاده میکند که هر دو باید برای معتبر بودن CPF تطبیق داشته باشند.
شکاف شناسایی بزرگ است: ابزارهای NLP آموزشدیده به انگلیسی CPF را تنها با ۴۵ درصد دقت تشخیص میدهند (ANPD، ۲۰۲۴). دو دلیل این را توضیح میدهند: ابزارهایی که اعداد ۱۱ رقمی را بدون منطق رقم کنترل دومرحلهای تطبیق میدهند، اعداد CPF معتبر را با دنبالههای تصادفی اشتباه میگیرند. و CPF گاهی فرمت XXX.XXX.XXX-XX را ندارد — این در خروجی OCR و فرمهای متن ساده اتفاق میافتد.
CNPJ (Cadastro Nacional da Pessoa Jurídica): شماره شناسه شرکت ۱۴ رقمی با فرمت XX.XXX.XXX/XXXX-XX. دو رقم کنترل هم دارد. فرمول شبیه CPF است اما یکسان نیست.
RG (Registro Geral): کارت شناسایی ملی. فرمت بسته به ایالت متفاوت است — سائوپائولو ۲ حرف و ۵ تا ۹ رقم، ریودوژانیرو ۷ تا ۸ رقم با خط تیره، میناسژرایس ۷ تا ۹ رقم دارد. ابزاری که فقط فرمت یک ایالت را میشناسد اکثر شمارههای RG را از دست میدهد.
CNH (Carteira Nacional de Habilitação): شماره گواهینامه رانندگی ۱۱ رقمی با یک رقم کنترل. فرمت شامل کد منطقهای است.
Título de Eleitor: شماره کارت رأیدهی ۱۲ رقمی با سه بخش: کد شناسه ۸ رقمی، کد ایالت ۲ رقمی و ۲ رقم کنترل.
شماره SUS (Cartão SUS): شناسه بهداشتی عمومی ۱۵ رقمی. هر فرد در کشور یکی دارد و در تمام سوابق بیمارستانی و کلینیکی ظاهر میشود.
PIS/PASEP: شماره برنامه اجتماعی ۱۱ رقمی که در هر سابقه استخدامی ظاهر میشود.
استاندارد ناشناسسازی LGPD
ماده ۱۲ LGPD داده ناشناس را تعریف میکند: دادهای که «با در نظر گرفتن ابزارهای فنی معقول در زمان پردازش قابل شناسایی نباشد.» این یک استاندارد مرتبط با فناوری است — داده ناشناس امروز ممکن است با پیشرفت روشهای بازشناسایی ناشناس باقی نماند.
ANPD راهنمای بیشتری اضافه میکند: حذف شناسههای مستقیم مثل CPF و نام کافی نیست. گروههای شناسههای شبهمستقیم همچنان میتوانند بازشناسایی را ممکن کنند. بازه سنی، شهر، جنسیت و شغل با هم ممکن است یک فرد را مشخص کنند — اینها باید از طریق گروهبندی یا افزودن نویز رسیدگی شوند.
برای دادههای آموزش هوش مصنوعی، ANPD یکی از سه شرط را الزامی میکند: اول، داده با استاندارد ماده ۱۲ مطابقت داشته باشد. دوم، هر صاحب داده رضایت صریح برای استفاده آموزشی خاص داده باشد. سوم، یک هدف مستند معتبر وجود داشته باشد.
الزامات زبانی پرتغالی
پرتغالی برزیلی با پرتغالی اروپایی متفاوت است — کلمات، نگارش و فرمهای اسناد یکسان نیستند. مدلهای NLP آموزشدیده بر روی متن پرتغال به حدود ۷۱ درصد دقت مدلهای آموزشدیده بر روی متن محلی میرسند (ارزیابی فنی ANPD).
تفاوتهای کلیدی برای شناسایی PII:
- نامها: استفاده از نام خانوادگی مضاعف و ترتیب نام با پرتغال متفاوت است.
- آدرسها: کدهای CEP از فرمت XXXXX-XXX استفاده میکنند که منحصر به این کشور است و به منطق شناسایی خاص خود نیاز دارد.
- اصطلاحات اسناد: «Carteira de Identidade» در برزیل در مقابل «Bilhete de Identidade» در پرتغال. نامهای آژانسها هم متفاوتند.
آنچه انطباق با ANPD نیاز دارد
چهار نیاز فنی انطباق ANPD را پوشش میدهند: شناسایی CPF و CNPJ باید شامل اعتبارسنجی رقم کنترل دومرحلهای باشد. شناسایی RG باید تمام ایالتها را پوشش دهد. شناسایی شماره SUS و Título de Eleitor هم الزامی است. مدلهای NLP باید بر روی پرتغالی محلی آموزش دیده باشند.
راهنمای ما را درباره شناسایی جهانی شناسههای PII و اقدامات اجرایی LGPD در سال ۲۰۲۴ ببینید.