মিশ্র-ভাষা PII: কেন একক-ভাষার টুল মিস করে

২০২৬ সালের জন্য আপডেট করা হয়েছে।

ডকুমেন্ট ভাষার সীমানা অতিক্রম করে

একটি সুইস ফার্মা কোম্পানির কর্মসংস্থান চুক্তি এক ভাষায় লেখা থাকে না। সুইজারল্যান্ডের চারটি সরকারি ভাষা রয়েছে। সুইস কোম্পানিগুলো প্রধান অংশে জার্মান, আইনি ধারায় ফরাসি এবং বৈশ্বিক বিভাগে ইংরেজি মেশায়। এটি একটি অনুচ্ছেদেই ঘটতে পারে।

একটি বেলজিয়ান বোর্ড মিনিটে ডাচ টেক্সট, ফরাসি আনুষ্ঠানিক অংশ এবং ইংরেজি সারসংক্ষেপ থাকে। একটি বৈশ্বিক ডেটা চুক্তিতে ইংরেজি প্রযুক্তিগত বিবরণ এবং জার্মান অধিকার ধারা থাকতে পারে।

এটি বিরল নয়। DACH এবং EU কোম্পানিগুলোর জন্য এটিই স্বাভাবিক। একভাষিক PII টুল এই ফাইলে ব্যর্থ হয়।

৪৫% মিস রেটের ফাঁক

একভাষিক NER টুলের মিশ্র ফাইলে PII মিস রেট ৪৫% বেশি। এটি একক ভাষার ফাইলের তুলনায়।

মূল কারণটি ডিজাইনে। জার্মান টেক্সটে প্রশিক্ষিত একটি মডেল স্থানীয় নামের ফর্ম এবং ঠিকানার নিয়ম জানে। যখন এটি একটি ফরাসি বিভাগে পৌঁছায়, তখন এটি তার প্রশিক্ষণ পরিসীমার বাইরে। সেই অংশে নাম এবং ID দুর্বল শনাক্তকরণ পায়। মডেলটি দুর্বল নয় — এটি ভিন্ন ভাষার জন্য তৈরি হয়েছিল।

EDPB 2024 খুঁজে পেয়েছে যে EU-র ৭২% কোম্পানি একসাথে তিন বা তার বেশি ভাষায় ফাইল প্রক্রিয়া করে। Gartner 2024 খুঁজে পেয়েছে যে মিশ্র-ভাষার HR ফাইলে একক ভাষার ফাইলের চেয়ে প্রতি পৃষ্ঠায় ৬৭% বেশি PII থাকে। বেশি PII এবং বেশি মিস মিলে ফাঁক বাড়িয়ে দেয়।

কোন নিয়মগুলো প্রযোজ্য তার জন্য আমাদের GDPR গাইড দেখুন।

কোথায় ত্রুটি জমা হয়

ব্যর্থতা একটি ফাইলে সমানভাবে হয় না। বিভাগীয় বিরতিতে PII সবচেয়ে বেশি ঝুঁকিতে থাকে।

এই ধারাটি বিবেচনা করুন: জার্মান বাক্য কাঠামো, একটি ফরাসি কর্মচারীর নাম, এবং একটি ফরাসি জন্মতারিখ — সব একটি লাইনে। NER মডেলটি সেখানে ফরাসি নাম দেখে যেখানে এটি স্থানীয় নাম আশা করে। এটি এটি ফ্ল্যাগ না-ও করতে পারে। একটি ফরাসি-প্রশিক্ষিত মডেল জার্মান প্রসঙ্গ শব্দ দেখে এবং কাঠামো পড়তে পারে না।

HR ফাইলগুলো এটিকে ব্যয়বহুল করে তোলে। Gartner খুঁজে পেয়েছে মিশ্র HR ফাইলে প্রতি পৃষ্ঠায় ৬৭% বেশি PII। বিভাগীয় বিরতিতে ত্রুটি সবচেয়ে বেশি ব্যক্তিগত ডেটা সম্পন্ন ফাইল টাইপে সবচেয়ে বেশি ক্ষতি করে।

ক্রস-লিঙ্গুয়াল মডেল এটি ঠিক করে

XLM-RoBERTa একসাথে ১০০টি ভাষার টেক্সটে প্রশিক্ষিত। এটি প্রতিটি ভাষার জন্য নতুন মডেল ব্যবহার করে না। এটি শেখে যে নাম শনাক্তকরণ ভাষাগত প্রসঙ্গ জুড়ে একইভাবে কাজ করে। একটি নাম এবং এর প্রসঙ্গ জার্মান, ফরাসি এবং ইংরেজিতে একই কাঠামো ভাগ করে।

মিশ্র ফাইলের জন্য, মডেল বিভাগীয় বিরতিতে স্যুইচ করে না। এটি পূর্ণ টেক্সট একটি ব্লক হিসাবে পড়ে। এটি প্রতিটি বিন্দুতে একই এন্টিটি নিয়ম প্রয়োগ করে।

জার্মান এবং ফরাসিতে fine-tuning প্রতিটি ভাষার জন্য আলাদাভাবে নির্ভুলতা যোগ করে। কিন্তু ক্রস-লিঙ্গুয়াল বেস বিরতিতে PII ধরে যেখানে একক-ভাষার মডেল ব্যর্থ হয়।

DAch কোম্পানিগুলোর জন্য যাদের ফাইল ভাষাগত বিভাগ অতিক্রম করে, এটি একটি প্রকৃত লাভ। একক-ভাষার টুল দ্বারা বিরতিতে মিস করা এন্টিটিগুলো ক্রস-লিঙ্গুয়াল মডেল খুঁজে পায়।

anonym.legal কীভাবে এটি পরিচালনা করে তার জন্য আমাদের safeguards page দেখুন।

এখনই নেওয়ার পদক্ষেপ

আপনার টুলের সুযোগ পরীক্ষা করুন। আপনার ভেন্ডরকে locale অনুযায়ী recall স্কোর চাইন। "অনেক ভাষা সমর্থন করে" মানে প্রথমে মেশিন ট্রান্সলেশনের মাধ্যমে টেক্সট যেতে পারে। এটি native স্ক্যানিং নয়।

locale অনুযায়ী আপনার ফাইল ম্যাপ করুন। ৬০% জার্মান, ৩০% ফরাসি এবং ১০% ইংরেজি সহ একটি DACH কোম্পানির আলাদা ফাঁক রয়েছে।

বিভাগীয় বিরতির নমুনা দিয়ে পরীক্ষা করুন। দশটি মিশ্র-ভাষার ধারার উদাহরণ দিয়ে একটি পরীক্ষা সেট তৈরি করুন। শুধু প্রধান-ভাষার অংশ নয়, পুরো ফাইল জুড়ে recall পরীক্ষা করুন।

আপনার DPIA পরীক্ষা করুন। একক-ভাষার রেকর্ডের উপর তৈরি একটি DPIA অসম্পূর্ণ হতে পারে। অডিটের আগে এটি ঠিক করুন।

API বিবরণ এবং এন্টিটি কভারেজের জন্য, pricing page দেখুন।

anonym.legal XLM-RoBERTa এবং native spaCy ও Stanza মডেল ব্যবহার করে। এটি জার্মান, ফরাসি, ইংরেজি এবং আরও ৪৫টি locale-এ বিভাগীয় বিরতিতে PII খুঁজে পায়।

সূত্র

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

মিশ্র-ভাষা PII: একভাষিক টুল ব্যর্থ হয়

মিশ্র-ভাষা PII: কেন একক-ভাষার টুল মিস করে

ডকুমেন্ট ভাষার সীমানা অতিক্রম করে

৪৫% মিস রেটের ফাঁক

কোথায় ত্রুটি জমা হয়

ক্রস-লিঙ্গুয়াল মডেল এটি ঠিক করে

এখনই নেওয়ার পদক্ষেপ

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

মিশ্র-ভাষা PII: একভাষিক টুল ব্যর্থ হয়

মিশ্র-ভাষা PII: কেন একক-ভাষার টুল মিস করে

ডকুমেন্ট ভাষার সীমানা অতিক্রম করে

৪৫% মিস রেটের ফাঁক

কোথায় ত্রুটি জমা হয়

ক্রস-লিঙ্গুয়াল মডেল এটি ঠিক করে

এখনই নেওয়ার পদক্ষেপ

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow