LGPD برازیل: CPF، CNPJ، اور ڈیٹا تحفظ
برازیل کا Lei Geral de Proteção de Dados (LGPD) 215 ملین لوگوں کو کور کرتا ہے۔ یہ آبادی کے لحاظ سے دنیا کا تیسرا سب سے بڑا ڈیٹا تحفظ قانون ہے۔ یہ جرمنی، فرانس، اور UK سے زیادہ لوگوں کو کور کرتا ہے۔ Autoridade Nacional de Proteção de Dados (ANPD) نے 2024 میں پہلے بڑے جرمانے جاری کیے۔ LGPD کے 2020 نفاذ کے بعد کا احتساب کا دور ختم ہو گیا ہے۔
ایک تکنیکی چیلنج بھی ہے۔ LGPD دستاویزات برازیلی پرتگالی میں ہیں۔ برازیل میں قومی IDs پرتگال کی IDs سے مختلف ہیں۔ یہ کسی دوسرے ملک کی IDs سے بھی مختلف ہیں۔
برازیلی PII کیوں مختلف ہے
برازیل کے وفاقی اور ریاستی ID نظام یورپی ڈیجیٹل شناخت نظاموں سے الگ ہو گئے۔ اس نے ایک منفرد شناخت کنندگان کا سیٹ بنایا۔ زیادہ تر NLP ٹولز انگریزی یا یورپی ڈیٹا پر تربیت یافتہ ہیں۔ وہ مقامی IDs کا پتہ لگانے میں ناکام رہتے ہیں۔
CPF (Cadastro de Pessoas Físicas): 11 ہندسی ٹیکس دہندہ نمبر۔ فارمیٹ: XXX.XXX.XXX-XX۔ اس کے دو چیک ہندسے ہیں۔ فارمولا دو الگ ریاضی قدم استعمال کرتا ہے۔ CPF کو درست بنانے کے لیے دونوں کا ملنا ضروری ہے۔
شناخت کا فرق بڑا ہے۔ انگریزی تربیت یافتہ NLP ٹولز CPF کو صرف 45٪ درستگی سے پہچانتے ہیں (ANPD، 2024)۔ دو وجوہات اس کی وضاحت کرتی ہیں۔ پہلی، ٹولز جو دو قدمی چیک ہندسہ منطق کے بغیر 11 ہندسی نمبر میچ کرتے ہیں، درست CPF نمبروں کو بے ترتیب ترتیبوں سے الجھاتے ہیں۔ دوسری، CPF کبھی کبھی XXX.XXX.XXX-XX فارمیٹ کے بغیر ہوتا ہے۔ یہ OCR آؤٹ پٹ اور سادہ متن فارمز میں ہوتا ہے۔
CNPJ (Cadastro Nacional da Pessoa Jurídica): 14 ہندسی کمپنی ID نمبر۔ فارمیٹ: XX.XXX.XXX/XXXX-XX۔ اس کے بھی دو چیک ہندسے ہیں۔ فارمولا CPF جیسا ہے لیکن ایک نہیں۔
RG (Registro Geral): ریاستی شہری ID کارڈ۔ فارمیٹ ریاست کے لحاظ سے مختلف ہوتا ہے۔ ساؤ پاؤلو 2 حروف اور 5–9 ہندسے استعمال کرتا ہے۔ ریو ڈی جنیرو ایک ڈیش کے ساتھ 7–8 ہندسے استعمال کرتا ہے۔ میناس گیرائس 7–9 ہندسے استعمال کرتا ہے۔ دوسری ریاستوں کے اپنے فارمیٹس ہیں۔ ایک ٹول جو صرف ایک ریاست کا RG جانتا ہے زیادہ تر RG نمبر نظر انداز کرے گا۔
CNH (Carteira Nacional de Habilitação): 11 ہندسی ڈرائیونگ لائسنس نمبر۔ اس کا ایک چیک ہندسہ ہے۔ فارمیٹ میں ڈسٹرکٹ کوڈ شامل ہے۔
Título de Eleitor: 12 ہندسی ووٹر ID نمبر۔ اس کے تین حصے ہیں: ایک 8 ہندسی ID کوڈ، ایک 2 ہندسی ریاست کوڈ، اور 2 چیک ہندسے۔
SUS نمبر (Cartão SUS): 15 ہندسی عوامی صحت ID۔ ملک کا ہر شخص ایک حاصل کرتا ہے۔ یہ تمام ہسپتال اور کلینک ریکارڈز میں ظاہر ہوتا ہے۔
PIS/PASEP: 11 ہندسی سوشل پروگرام نمبر۔ یہ ہر روزگار ریکارڈ میں ظاہر ہوتا ہے۔
LGPD گمنامی کا معیار
LGPD آرٹیکل 12 گمنام ڈیٹا کی تعریف کرتا ہے۔ معیار: ڈیٹا "پروسیسنگ کے وقت معقول تکنیکی ذرائع کو مدنظر رکھتے ہوئے، شناخت نہیں کیا جا سکتا۔" یہ ٹیکنالوجی سے متعلق معیار ہے۔ آج کا گمنام ڈیٹا ایسا نہیں رہ سکتا جیسے re-ID طریقے بہتر ہوتے ہیں۔
ANPD مزید رہنمائی فراہم کرتا ہے۔ CPF اور نام جیسے براہ راست شناخت کنندگان ہٹانا کافی نہیں ہے۔ نیم شناخت کنندگان کے گروپ اب بھی re-ID کی اجازت دے سکتے ہیں۔ عمر کی حد، شہر، جنس، اور ملازمت مل کر کسی شخص کی شناخت کر سکتے ہیں۔ ان کو گروپ بندی یا شور اضافے سے سنبھالنا ہوگا۔
AI تربیتی ڈیٹا کے لیے، ANPD تین شرائط میں سے ایک کی ضرورت کرتا ہے۔ پہلی: ڈیٹا آرٹیکل 12 معیار پورا کرتا ہے۔ دوسری: ہر ڈیٹا سبجیکٹ نے مخصوص تربیتی استعمال کے لیے واضح رضامندی دی۔ تیسری: ایک درست دستاویزی مقصد ہے۔
پرتگالی زبان کی ضروریات
برازیلی پرتگالی یورپی پرتگالی سے مختلف ہے۔ الفاظ، ہجے، اور دستاویز کی شکلیں ایک جیسی نہیں ہیں۔ پرتگال کے متن پر تربیت یافتہ NLP ماڈل مقامی متن پر تربیت یافتہ ماڈلز کی درستگی کا تقریباً 71٪ تک پہنچتے ہیں۔ یہ ANPD کے تکنیکی جائزے سے آتا ہے۔
PII شناخت کے لیے اہم فرق:
- نام: دوہرے کنیت کے استعمال اور نام کی ترتیب پرتگال سے مختلف ہیں۔
- پتے: CEP کوڈ فارمیٹ XXXXX-XXX استعمال کرتے ہیں۔ یہ فارمیٹ اس ملک کے لیے منفرد ہے۔ اسے اپنی شناخت منطق کی ضرورت ہے۔
- دستاویز کی اصطلاحات: یہاں "Carteira de Identidade" بمقابلہ پرتگال میں "Bilhete de Identidade"۔ ایجنسی کے نام بھی مختلف ہیں۔
ANPD تعمیل کو کیا چاہیے
چار تکنیکی ضروریات ANPD تعمیل کو کور کرتی ہیں۔ CPF اور CNPJ شناخت میں دو قدمی چیک ہندسہ تصدیق شامل ہونی چاہیے۔ RG شناخت تمام ریاستوں کو کور کرنی چاہیے۔ SUS نمبر اور Título de Eleitor شناخت بھی ضروری ہے۔ NLP ماڈل مقامی پرتگالی متن پر تربیت یافتہ ہونے چاہئیں۔
عالمی PII شناخت کنندہ شناخت اور 2024 میں LGPD نفاذ کارروائیاں پر ہماری رہنمائیاں دیکھیں۔