বহুভাষিক NER চ্যালেঞ্জ
ইংরেজিতে প্রশিক্ষিত নামযুক্ত সত্তা স্বীকৃতি (NER) মডেলগুলি চিত্তাকর্ষক ফলাফল অর্জন করে—মান বেঞ্চমার্কগুলিতে ८५-०२% F१ স্কোর। সেই একই মডেলগুলি আরবি বা চীনায় প্রয়োগ করুন? নির্ভুলতা প্রায়শই ५०-७०% ড্রপ করে।
PII সনাক্তকরণের জন্য, এই ব্যবধান গুরুত্বপূর্ণ। ७०% সনাক্তকরণ হার মানে ३०% সংবেদনশীল ডেটা অসুরক্ষিত থাকে।
কেন ইংরেজি মডেল ব্যর্থ
१. শব্দ সীমানা
ইংরেজি: শব্দগুলি স্থান দ্বারা পৃথক করা হয়।
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
চীনা: কোন শব্দ সীমানা নেই।
"张伟住在北京"
→ প্রথমে বিভাগীকরণ প্রয়োজন: ["张伟", "住在", "北京"]
আরবি: শব্দগুলি সংযুক্ত হয়, এবং ছোট স্বরবর্ণ লেখা হয় না।
"محمد يعيش في دبي"
→ সংযুক্ত স্ক্রিপ্ট, ডান-থেকে-বাম, স্বরবর্ণ বাদ দেওয়া
ইংরেজি টোকেনাইজেশন নিয়মগুলি কেবল প্রযোজ্য নয়।
२. রূপমূল জটিলতা
ইংরেজি রূপমূল: অপেক্ষাকৃত সরল
run → runs, running, ran
আরবি রূপমূল: অত্যন্ত জটিল (মূল-প্যাটার্ন সিস্টেম)
كتب (k-t-b, "লেখা" মূল)
→ كاتب (লেখক), كتاب (বই), مكتبة (লাইব্রেরি), يكتب (তিনি লেখেন)
একটি একক আরবি মূল ডজনেরও বেশি সম্পর্কিত শব্দ উৎপাদন করে। NER মডেলগুলি এই ডেরিভেশন সিস্টেম বুঝতে অবশ্যই।
३. নাম কনভেনশন
ইংরেজি নাম: প্রথম শেষ
John Smith, Mary Johnson
আরবি নাম: একাধিক উপাদান
محمد بن عبد الله بن عبد المطلب
(Muhammad bin Abdullah bin Abdul-Muttalib)
চীনা নাম: পারিবারিক নাম প্রথম, প্রায়শই ২-३ অক্ষর মোট
张伟 (Zh...