মিশ্র-ভাষা PII: কেন একক-ভাষার টুল মিস করে
২০২৬ সালের জন্য আপডেট করা হয়েছে।
ডকুমেন্ট ভাষার সীমানা অতিক্রম করে
একটি সুইস ফার্মা কোম্পানির কর্মসংস্থান চুক্তি এক ভাষায় লেখা থাকে না। সুইজারল্যান্ডের চারটি সরকারি ভাষা রয়েছে। সুইস কোম্পানিগুলো প্রধান অংশে জার্মান, আইনি ধারায় ফরাসি এবং বৈশ্বিক বিভাগে ইংরেজি মেশায়। এটি একটি অনুচ্ছেদেই ঘটতে পারে।
একটি বেলজিয়ান বোর্ড মিনিটে ডাচ টেক্সট, ফরাসি আনুষ্ঠানিক অংশ এবং ইংরেজি সারসংক্ষেপ থাকে। একটি বৈশ্বিক ডেটা চুক্তিতে ইংরেজি প্রযুক্তিগত বিবরণ এবং জার্মান অধিকার ধারা থাকতে পারে।
এটি বিরল নয়। DACH এবং EU কোম্পানিগুলোর জন্য এটিই স্বাভাবিক। একভাষিক PII টুল এই ফাইলে ব্যর্থ হয়।
৪৫% মিস রেটের ফাঁক
একভাষিক NER টুলের মিশ্র ফাইলে PII মিস রেট ৪৫% বেশি। এটি একক ভাষার ফাইলের তুলনায়।
মূল কারণটি ডিজাইনে। জার্মান টেক্সটে প্রশিক্ষিত একটি মডেল স্থানীয় নামের ফর্ম এবং ঠিকানার নিয়ম জানে। যখন এটি একটি ফরাসি বিভাগে পৌঁছায়, তখন এটি তার প্রশিক্ষণ পরিসীমার বাইরে। সেই অংশে নাম এবং ID দুর্বল শনাক্তকরণ পায়। মডেলটি দুর্বল নয় — এটি ভিন্ন ভাষার জন্য তৈরি হয়েছিল।
EDPB 2024 খুঁজে পেয়েছে যে EU-র ৭২% কোম্পানি একসাথে তিন বা তার বেশি ভাষায় ফাইল প্রক্রিয়া করে। Gartner 2024 খুঁজে পেয়েছে যে মিশ্র-ভাষার HR ফাইলে একক ভাষার ফাইলের চেয়ে প্রতি পৃষ্ঠায় ৬৭% বেশি PII থাকে। বেশি PII এবং বেশি মিস মিলে ফাঁক বাড়িয়ে দেয়।
কোন নিয়মগুলো প্রযোজ্য তার জন্য আমাদের GDPR গাইড দেখুন।
কোথায় ত্রুটি জমা হয়
ব্যর্থতা একটি ফাইলে সমানভাবে হয় না। বিভাগীয় বিরতিতে PII সবচেয়ে বেশি ঝুঁকিতে থাকে।
এই ধারাটি বিবেচনা করুন: জার্মান বাক্য কাঠামো, একটি ফরাসি কর্মচারীর নাম, এবং একটি ফরাসি জন্মতারিখ — সব একটি লাইনে। NER মডেলটি সেখানে ফরাসি নাম দেখে যেখানে এটি স্থানীয় নাম আশা করে। এটি এটি ফ্ল্যাগ না-ও করতে পারে। একটি ফরাসি-প্রশিক্ষিত মডেল জার্মান প্রসঙ্গ শব্দ দেখে এবং কাঠামো পড়তে পারে না।
HR ফাইলগুলো এটিকে ব্যয়বহুল করে তোলে। Gartner খুঁজে পেয়েছে মিশ্র HR ফাইলে প্রতি পৃষ্ঠায় ৬৭% বেশি PII। বিভাগীয় বিরতিতে ত্রুটি সবচেয়ে বেশি ব্যক্তিগত ডেটা সম্পন্ন ফাইল টাইপে সবচেয়ে বেশি ক্ষতি করে।
ক্রস-লিঙ্গুয়াল মডেল এটি ঠিক করে
XLM-RoBERTa একসাথে ১০০টি ভাষার টেক্সটে প্রশিক্ষিত। এটি প্রতিটি ভাষার জন্য নতুন মডেল ব্যবহার করে না। এটি শেখে যে নাম শনাক্তকরণ ভাষাগত প্রসঙ্গ জুড়ে একইভাবে কাজ করে। একটি নাম এবং এর প্রসঙ্গ জার্মান, ফরাসি এবং ইংরেজিতে একই কাঠামো ভাগ করে।
মিশ্র ফাইলের জন্য, মডেল বিভাগীয় বিরতিতে স্যুইচ করে না। এটি পূর্ণ টেক্সট একটি ব্লক হিসাবে পড়ে। এটি প্রতিটি বিন্দুতে একই এন্টিটি নিয়ম প্রয়োগ করে।
জার্মান এবং ফরাসিতে fine-tuning প্রতিটি ভাষার জন্য আলাদাভাবে নির্ভুলতা যোগ করে। কিন্তু ক্রস-লিঙ্গুয়াল বেস বিরতিতে PII ধরে যেখানে একক-ভাষার মডেল ব্যর্থ হয়।
DAch কোম্পানিগুলোর জন্য যাদের ফাইল ভাষাগত বিভাগ অতিক্রম করে, এটি একটি প্রকৃত লাভ। একক-ভাষার টুল দ্বারা বিরতিতে মিস করা এন্টিটিগুলো ক্রস-লিঙ্গুয়াল মডেল খুঁজে পায়।
anonym.legal কীভাবে এটি পরিচালনা করে তার জন্য আমাদের safeguards page দেখুন।
এখনই নেওয়ার পদক্ষেপ
আপনার টুলের সুযোগ পরীক্ষা করুন। আপনার ভেন্ডরকে locale অনুযায়ী recall স্কোর চাইন। "অনেক ভাষা সমর্থন করে" মানে প্রথমে মেশিন ট্রান্সলেশনের মাধ্যমে টেক্সট যেতে পারে। এটি native স্ক্যানিং নয়।
locale অনুযায়ী আপনার ফাইল ম্যাপ করুন। ৬০% জার্মান, ৩০% ফরাসি এবং ১০% ইংরেজি সহ একটি DACH কোম্পানির আলাদা ফাঁক রয়েছে।
বিভাগীয় বিরতির নমুনা দিয়ে পরীক্ষা করুন। দশটি মিশ্র-ভাষার ধারার উদাহরণ দিয়ে একটি পরীক্ষা সেট তৈরি করুন। শুধু প্রধান-ভাষার অংশ নয়, পুরো ফাইল জুড়ে recall পরীক্ষা করুন।
আপনার DPIA পরীক্ষা করুন। একক-ভাষার রেকর্ডের উপর তৈরি একটি DPIA অসম্পূর্ণ হতে পারে। অডিটের আগে এটি ঠিক করুন।
API বিবরণ এবং এন্টিটি কভারেজের জন্য, pricing page দেখুন।
anonym.legal XLM-RoBERTa এবং native spaCy ও Stanza মডেল ব্যবহার করে। এটি জার্মান, ফরাসি, ইংরেজি এবং আরও ৪৫টি locale-এ বিভাগীয় বিরতিতে PII খুঁজে পায়।