LGPD ব্রাজিল: CPF, CNPJ এবং ডেটা সুরক্ষা
ব্রাজিলের Lei Geral de Proteção de Dados (LGPD) ২১৫ মিলিয়ন মানুষ কভার করে। এটি জনসংখ্যা অনুসারে বিশ্বের তৃতীয় বৃহত্তম ডেটা সুরক্ষা আইন। এটি জার্মানি, ফ্রান্স এবং যুক্তরাজ্যের চেয়ে বেশি মানুষ কভার করে। Autoridade Nacional de Proteção de Dados (ANPD) ২০২৪ সালে তার প্রথম বড় জরিমানা জারি করেছে। LGPD-এর ২০২০ প্রণয়নের পর অনুগ্রহ সময়কাল শেষ।
একটি প্রযুক্তিগত চ্যালেঞ্জও রয়েছে। LGPD নথি ব্রাজিলীয় পর্তুগিজে। ব্রাজিলের জাতীয় আইডিগুলো পর্তুগালে থেকে আলাদা। এগুলো অন্য কোনো দেশের আইডি থেকেও আলাদা।
ব্রাজিলীয় PII কেন আলাদা
ব্রাজিলের ফেডারেল এবং রাজ্য আইডি সিস্টেম ইউরোপীয় ডিজিটাল পরিচয় সিস্টেম থেকে আলাদাভাবে বৃদ্ধি পেয়েছে। এটি অনন্য শনাক্তকারীর একটি সেট তৈরি করেছে। বেশিরভাগ NLP সরঞ্জাম ইংরেজি বা ইউরোপীয় ডেটায় প্রশিক্ষিত। স্থানীয় আইডি সনাক্ত করতে তারা ব্যর্থ হয়।
CPF (Cadastro de Pessoas Físicas): ১১-সংখ্যার করদাতার নম্বর। ফরম্যাট: XXX.XXX.XXX-XX। এতে দুটি চেক ডিজিট রয়েছে। সূত্রটি দুটি পৃথক গণিত পদক্ষেপ ব্যবহার করে। উভয়ই মেলাতে হবে CPF বৈধ হতে।
সনাক্তকরণের ফাঁক বড়। ইংরেজি-প্রশিক্ষিত NLP সরঞ্জাম মাত্র ৪৫% নির্ভুলতায় CPF সনাক্ত করে (ANPD, ২০২৪)। দুটি কারণ এটি ব্যাখ্যা করে। প্রথমত, দ্বি-ধাপ চেক ডিজিট লজিক ছাড়াই ১১-সংখ্যার সংখ্যা মেলানো সরঞ্জাম বৈধ CPF নম্বর এলোমেলো ক্রমের সাথে বিভ্রান্ত করে। দ্বিতীয়ত, CPF কখনও কখনও XXX.XXX.XXX-XX ফরম্যাটের অভাব রাখে। এটি OCR আউটপুট এবং সাধারণ-পাঠ্য ফর্মে ঘটে।
CNPJ (Cadastro Nacional da Pessoa Jurídica): ১৪-সংখ্যার কোম্পানি আইডি নম্বর। ফরম্যাট: XX.XXX.XXX/XXXX-XX। এতেও দুটি চেক ডিজিট রয়েছে। সূত্র CPF-এর মতো কিন্তু একই নয়।
RG (Registro Geral): রাজ্য নাগরিক আইডি কার্ড। ফরম্যাট রাজ্যভেদে পরিবর্তিত হয়। সাও পাওলো ২ অক্ষর এবং ৫–৯ সংখ্যা ব্যবহার করে। রিও ডি জানেইরো ৭–৮ সংখ্যা ড্যাশ সহ ব্যবহার করে। মিনাস গেরাইস ৭–৯ সংখ্যা ব্যবহার করে। অন্যান্য রাজ্যের নিজস্ব ফরম্যাট রয়েছে। শুধুমাত্র একটি রাজ্যের RG জানা সরঞ্জাম বেশিরভাগ RG নম্বর মিস করবে।
CNH (Carteira Nacional de Habilitação): ১১-সংখ্যার ড্রাইভিং লাইসেন্স নম্বর। এতে একটি চেক ডিজিট রয়েছে। ফরম্যাটে একটি জেলা কোড অন্তর্ভুক্ত।
Título de Eleitor: ১২-সংখ্যার ভোটার আইডি নম্বর। এর তিনটি অংশ রয়েছে: একটি ৮-সংখ্যার আইডি কোড, একটি ২-সংখ্যার রাজ্য কোড এবং ২টি চেক ডিজিট।
SUS নম্বর (Cartão SUS): ১৫-সংখ্যার পাবলিক হেলথ আইডি। দেশের প্রতিটি ব্যক্তি একটি পায়। এটি সমস্ত হাসপাতাল ও ক্লিনিক রেকর্ডে প্রদর্শিত হয়।
PIS/PASEP: ১১-সংখ্যার সামাজিক কার্যক্রম নম্বর। এটি প্রতিটি কর্মসংস্থান রেকর্ডে প্রদর্শিত হয়।
LGPD বেনামীকরণ মান
LGPD অনুচ্ছেদ ১২ বেনামী ডেটা সংজ্ঞায়িত করে। মান: ডেটা "প্রক্রিয়াকরণের সময় যুক্তিসঙ্গত প্রযুক্তিগত উপায় বিবেচনা করে শনাক্ত করা যায় না।" এটি একটি প্রযুক্তি-আপেক্ষিক মান। আজকের বেনামী ডেটা পুনঃশনাক্তকরণ পদ্ধতির উন্নতির সাথে সাথে নাও থাকতে পারে।
ANPD আরও নির্দেশিকা যোগ করে। CPF এবং নামের মতো সরাসরি শনাক্তকারী অপসারণ যথেষ্ট নয়। কোয়াসি-শনাক্তকারীর গ্রুপগুলি এখনও পুনঃশনাক্তকরণের অনুমতি দিতে পারে। বয়স পরিসর, শহর, লিঙ্গ এবং চাকরি একসাথে কাউকে শনাক্ত করতে পারে। এগুলো গ্রুপিং বা শব্দ সংযোজন দ্বারা পরিচালনা করতে হবে।
AI প্রশিক্ষণ ডেটার জন্য, ANPD তিনটি শর্তের একটি প্রয়োজন। প্রথম: ডেটা অনুচ্ছেদ ১২ মান পূরণ করে। দ্বিতীয়: প্রতিটি ডেটা বিষয় নির্দিষ্ট প্রশিক্ষণ ব্যবহারের জন্য স্পষ্ট সম্মতি দিয়েছে। তৃতীয়: একটি বৈধ নথিভুক্ত উদ্দেশ্য রয়েছে।
পর্তুগিজ ভাষার প্রয়োজনীয়তা
ব্রাজিলীয় পর্তুগিজ ইউরোপীয় পর্তুগিজ থেকে আলাদা। শব্দ, বানান এবং নথির ফর্মগুলো একই নয়। পর্তুগালের পাঠ্যে প্রশিক্ষিত NLP মডেল স্থানীয় পাঠ্যে প্রশিক্ষিত মডেলের প্রায় ৭১% নির্ভুলতায় পৌঁছায়। এটি ANPD প্রযুক্তিগত মূল্যায়ন থেকে।
PII সনাক্তকরণের মূল পার্থক্য:
- নাম: দ্বৈত-উপাধির ব্যবহার এবং নামের ক্রম পর্তুগাল থেকে আলাদা।
- ঠিকানা: CEP কোড XXXXX-XXX ফরম্যাট ব্যবহার করে। এই ফরম্যাট দেশের জন্য অনন্য। এর নিজস্ব সনাক্তকরণ লজিক প্রয়োজন।
- নথির শর্তাবলী: এখানে "Carteira de Identidade" বনাম পর্তুগালে "Bilhete de Identidade"। সংস্থার নামও আলাদা।
ANPD সম্মতির জন্য কী প্রয়োজন
চারটি প্রযুক্তিগত প্রয়োজনীয়তা ANPD সম্মতি কভার করে। CPF এবং CNPJ সনাক্তকরণে দ্বি-ধাপ চেক ডিজিট যাচাই অন্তর্ভুক্ত থাকতে হবে। RG সনাক্তকরণ সমস্ত রাজ্য কভার করতে হবে। SUS নম্বর এবং Título de Eleitor সনাক্তকরণও প্রয়োজন। NLP মডেল স্থানীয় পর্তুগিজ পাঠ্যে প্রশিক্ষিত হতে হবে।
বৈশ্বিক PII শনাক্তকারী সনাক্তকরণ এবং ২০২৪ সালে LGPD প্রয়োগ পদক্ষেপ-এর আমাদের গাইড দেখুন।