লুকানো GDPR সম্মতি ব্যবধান
GDPR একটি ভাষা পছন্দ নেই। নিবন্ধ ४(१) "ব্যক্তিগত ডেটা" সংজ্ঞায়িত করে যে ভাষার কোন উল্লেখ ছাড়াই এটি প্রদর্শিত হয়। একটি জার্মান Steuer-ID একটি US সামাজিক নিরাপত্তা সংখ্যা হিসাবে সুরক্ষিত। ফ্রেঞ্চ NIR একটি UK জাতীয় বীমা সংখ্যা হিসাবে নিয়ন্ত্রিত।
কিন্তু বেশিরভাগ PII সনাক্তকরণ সরঞ্জাম ইংরেজির জন্য নির্মিত হয়েছিল।
ACL २००२४ এ প্রকাশিত গবেষণা দেখায় যে হাইব্রিড NLP পদ্ধতিগুলি ইউরোপীয় লোকেলের জন্য F१ স্কোর ०.६०-०.८३ অর্জন করে — কিন্তু অ-ইংরেজি পাঠে প্রয়োগ করা ইংরেজি-শুধুমাত্র সরঞ্জামগুলি গঠিত জাতীয় শনাক্তকারীদের জন্য প্রায় শূন্য স্কোর করে। ব্যবহারিক প্রভাব: একটি বহুজাতিক সংস্থা জুড়ে স্থাপিত একটি গোপনীয়করণ সরঞ্জাম ইংরেজি PII এর ००% সনাক্ত করছে যখন একই ডেটাসেটে জার্মান, ফ্রেঞ্চ, পোলিশ বা ডাচ PII এর ४०-६०% মিস করছে।
এটি একটি পদ্ধতিগত GDPR সম্মতি ব্যবধান যা বাস্তবে প্রতিটি বহুজাতিক এন্টারপ্রাইজ ইংরেজি-কেন্দ্রিক গোপনীয়করণ সরঞ্জাম ব্যবহার করে প্রভাবিত করে।
কেন PII ভাষা-নির্দিষ্ট
PII সনাক্তকরণ দুটি উপাদান রয়েছে: প্যাটার্ন-ভিত্তিক সনাক্তকরণ (কর ট্যাক্স ID, ফোন বিন্যাসের মতো গঠিত চিহ্নক) এবং NER-ভিত্তিক সনাক্তকরণ (প্রসঙ্গ সত্তা যেমন ব্যক্তি নাম, সংস্থা নাম, ঠিকানা)।
উভয় উপাদান গভীরভাবে ভাষা-নির্দিষ্ট।
গঠিত চিহ্নক দেশ দ্বারা মৌলিকভাবে পার্থক্য
| দেশ | ট্যাক্স শনাক্তকারী | বিন্যাস | সনাক্তকরণ প্রয়োজনীয়তা |
|---|---|---|---|
| জার্মানি | Steuer-ID | ११ ডিজিট, চেকসাম অ্যালগরিদম | Modulo-११ যাচাইকরণ |
| ফ্রান্স | NIR | ... | ... |