ব্লগে ফিরে যানপ্রযুক্তিগত

মাল্টি-ভাষা NER: আপনার ইংরেজি-প্রশিক্ষিত মডেল কেন...

ইংরেজি NER মডেল ८५-०२% নির্ভুলতা অর্জন করে। আরবি এবং চীনা? প্রায়ই ५०-७०%। প্রযুক্তিগত চ্যালেঞ্জ এবং কীভাবে সত্যিকারের বহুভাষিক PII সনাক্তকরণ তৈরি...

February 26, 20268 মিনিট পড়া
NERmultilingualArabic NLPChinese NLPPII detection

বহুভাষিক NER চ্যালেঞ্জ

ইংরেজিতে প্রশিক্ষিত নামযুক্ত সত্তা স্বীকৃতি (NER) মডেলগুলি চিত্তাকর্ষক ফলাফল অর্জন করে—মান বেঞ্চমার্কগুলিতে ८५-०२% F१ স্কোর। সেই একই মডেলগুলি আরবি বা চীনায় প্রয়োগ করুন? নির্ভুলতা প্রায়শই ५०-७०% ড্রপ করে।

PII সনাক্তকরণের জন্য, এই ব্যবধান গুরুত্বপূর্ণ। ७०% সনাক্তকরণ হার মানে ३०% সংবেদনশীল ডেটা অসুরক্ষিত থাকে

কেন ইংরেজি মডেল ব্যর্থ

१. শব্দ সীমানা

ইংরেজি: শব্দগুলি স্থান দ্বারা পৃথক করা হয়।

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

চীনা: কোন শব্দ সীমানা নেই।

"张伟住在北京"
→ প্রথমে বিভাগীকরণ প্রয়োজন: ["张伟", "住在", "北京"]

আরবি: শব্দগুলি সংযুক্ত হয়, এবং ছোট স্বরবর্ণ লেখা হয় না।

"محمد يعيش في دبي"
→ সংযুক্ত স্ক্রিপ্ট, ডান-থেকে-বাম, স্বরবর্ণ বাদ দেওয়া

ইংরেজি টোকেনাইজেশন নিয়মগুলি কেবল প্রযোজ্য নয়।

२. রূপমূল জটিলতা

ইংরেজি রূপমূল: অপেক্ষাকৃত সরল

run → runs, running, ran

আরবি রূপমূল: অত্যন্ত জটিল (মূল-প্যাটার্ন সিস্টেম)

كتب (k-t-b, "লেখা" মূল)
→ كاتب (লেখক), كتاب (বই), مكتبة (লাইব্রেরি), يكتب (তিনি লেখেন)

একটি একক আরবি মূল ডজনেরও বেশি সম্পর্কিত শব্দ উৎপাদন করে। NER মডেলগুলি এই ডেরিভেশন সিস্টেম বুঝতে অবশ্যই।

३. নাম কনভেনশন

ইংরেজি নাম: প্রথম শেষ

John Smith, Mary Johnson

আরবি নাম: একাধিক উপাদান

محمد بن عبد الله بن عبد المطلب
(Muhammad bin Abdullah bin Abdul-Muttalib)

চীনা নাম: পারিবারিক নাম প্রথম, প্রায়শই ২-३ অক্ষর মোট

张伟 (Zh...

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।