ব্লগে ফিরে যানGDPR এবং সম্মতি

কেন আপনার PII সনাক্তকরণ সরঞ্জাম শুধুমাত্র ইংরেজি...

একটি জার্মান Steuer-ID, ফ্রেঞ্চ NIR এবং সুইডিশ Personnummer সবাই বিভিন্ন সনাক্তকরণ যুক্তি প্রয়োজন। ইংরেজি-শুধুমাত্র সরঞ্জাম অ-ইংরেজি PII এর ४०-६०%...

March 3, 202610 মিনিট পড়া
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

লুকানো GDPR সম্মতি ব্যবধান

GDPR একটি ভাষা পছন্দ নেই। নিবন্ধ ४(१) "ব্যক্তিগত ডেটা" সংজ্ঞায়িত করে যে ভাষার কোন উল্লেখ ছাড়াই এটি প্রদর্শিত হয়। একটি জার্মান Steuer-ID একটি US সামাজিক নিরাপত্তা সংখ্যা হিসাবে সুরক্ষিত। ফ্রেঞ্চ NIR একটি UK জাতীয় বীমা সংখ্যা হিসাবে নিয়ন্ত্রিত।

কিন্তু বেশিরভাগ PII সনাক্তকরণ সরঞ্জাম ইংরেজির জন্য নির্মিত হয়েছিল।

ACL २००२४ এ প্রকাশিত গবেষণা দেখায় যে হাইব্রিড NLP পদ্ধতিগুলি ইউরোপীয় লোকেলের জন্য F१ স্কোর ०.६०-०.८३ অর্জন করে — কিন্তু অ-ইংরেজি পাঠে প্রয়োগ করা ইংরেজি-শুধুমাত্র সরঞ্জামগুলি গঠিত জাতীয় শনাক্তকারীদের জন্য প্রায় শূন্য স্কোর করে। ব্যবহারিক প্রভাব: একটি বহুজাতিক সংস্থা জুড়ে স্থাপিত একটি গোপনীয়করণ সরঞ্জাম ইংরেজি PII এর ००% সনাক্ত করছে যখন একই ডেটাসেটে জার্মান, ফ্রেঞ্চ, পোলিশ বা ডাচ PII এর ४०-६०% মিস করছে।

এটি একটি পদ্ধতিগত GDPR সম্মতি ব্যবধান যা বাস্তবে প্রতিটি বহুজাতিক এন্টারপ্রাইজ ইংরেজি-কেন্দ্রিক গোপনীয়করণ সরঞ্জাম ব্যবহার করে প্রভাবিত করে।

কেন PII ভাষা-নির্দিষ্ট

PII সনাক্তকরণ দুটি উপাদান রয়েছে: প্যাটার্ন-ভিত্তিক সনাক্তকরণ (কর ট্যাক্স ID, ফোন বিন্যাসের মতো গঠিত চিহ্নক) এবং NER-ভিত্তিক সনাক্তকরণ (প্রসঙ্গ সত্তা যেমন ব্যক্তি নাম, সংস্থা নাম, ঠিকানা)।

উভয় উপাদান গভীরভাবে ভাষা-নির্দিষ্ট।

গঠিত চিহ্নক দেশ দ্বারা মৌলিকভাবে পার্থক্য

দেশট্যাক্স শনাক্তকারীবিন্যাসসনাক্তকরণ প্রয়োজনীয়তা
জার্মানিSteuer-ID११ ডিজিট, চেকসাম অ্যালগরিদমModulo-११ যাচাইকরণ
ফ্রান্সNIR......

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।