اطلاعات شخصی چندزبانه: چرا ابزارهای تکزبانه شکست میخورند
بهروزرسانی شده برای ۲۰۲۶.
اسناد مرز زبانی را رد میکنند
یک قرارداد کاری شرکت داروسازی سوئیسی به یک زبان نیست. سوئیس چهار زبان رسمی دارد. شرکتهای سوئیسی متن آلمانی در بدنه اصلی، فرانسوی در بندهای حقوقی و انگلیسی در بخشهای جهانی را با هم ترکیب میکنند. این ممکن است در یک پاراگراف اتفاق بیفتد.
صورتجلسه هیئتمدیره یک شرکت بلژیکی دارای متن هلندی، بخشهای رسمی فرانسوی و خلاصههای انگلیسی است. یک معامله دادهای جهانی ممکن است مشخصات فنی انگلیسی و بندهای حقوقی آلمانی داشته باشد.
این استثنا نیست؛ هنجار است — برای شرکتهای DACH و اروپایی. ابزارهای تکزبانه برای شناسایی اطلاعات شخصی در این فایلها شکست میخورند.
شکاف ۴۵ درصدی نرخ از دست دادن
ابزارهای NER تکزبانه نرخ از دست دادن اطلاعات شخصی را در فایلهای چندزبانه ۴۵٪ بالاتر دارند در مقایسه با فایلهای خالص تکزبانه.
ریشه مشکل در طراحی است. یک مدل آموزشدیده روی متن آلمانی، اشکال نام محلی و قواعد آدرس را میشناسد. وقتی به یک بخش فرانسوی میرسد، از محدوده آموزشی خود خارج شده است. نامها و شناسهها در آن قسمت تشخیص ضعیفی دارند. مدل ضعیف نیست — برای یک زبان دیگر ساخته شده است.
EDPB در سال ۲۰۲۴ دریافت که ۷۲٪ از شرکتهای اروپایی فایلها را بهطور همزمان در سه یا بیشتر زبان پردازش میکنند. Gartner در سال ۲۰۲۴ دریافت که فایلهای HR چندزبانه ۶۷٪ اطلاعات شخصی بیشتری در هر صفحه دارند در مقایسه با فایلهای تکزبانه. اطلاعات شخصی بیشتر بهعلاوه از دست دادن بیشتر، شکاف را تشدید میکند.
راهنمای GDPR ما قوانین قابل اعمال را پوشش میدهد.
کجا خطاها تمرکز دارند
شکست در سراسر یک فایل یکسان نیست. اطلاعات شخصی در مرزهای بخشها بیشترین خطر را دارند.
یک بند را در نظر بگیرید: ساختار جمله آلمانی، یک نام کارمند فرانسوی و یک تاریخ تولد فرانسوی — همه در یک خط. مدل NER نام فرانسوی را در جایی میبیند که انتظار نام محلی داشت و ممکن است آن را علامتگذاری نکند. یک مدل آموزشدیده به فرانسوی کلمات زمینه آلمانی را میبیند و نمیتواند ساختار را بخواند.
فایلهای HR این مشکل را پرهزینهتر میکنند. Gartner ۶۷٪ اطلاعات شخصی بیشتر در هر صفحه در فایلهای HR چندزبانه پیدا کرد. خطاها در مرزهای بخشها در نوع فایلی که بیشترین داده شخصی را دارد بیشترین آسیب را میزنند.
مدلهای چندزبانه این مشکل را حل میکنند
XLM-RoBERTa روی متنهایی از ۱۰۰ زبان بهطور همزمان آموزش دیده است. از یک مدل جداگانه برای هر زبان استفاده نمیکند. یاد میگیرد که تشخیص نام در زمینههای زبانی مختلف به یک شکل کار میکند. نام و زمینه آن در آلمانی، فرانسوی و انگلیسی ساختار مشابهی دارند.
برای فایلهای چندزبانه، مدل در مرز یک بخش تغییر نمیکند. کل متن را بهعنوان یک بلوک واحد میخواند. همان قواعد موجودیت را در هر نقطه اعمال میکند.
تنظیم دقیق روی آلمانی و فرانسوی دقت را برای هر زبان بهتنهایی افزایش میدهد. اما پایه چندزبانه اطلاعات شخصی را در مرزهایی که مدلهای تکزبانه در آنها شکست میخورند پیدا میکند.
برای شرکتهای DACH که فایلهایشان از مرزهای زبانی عبور میکنند، این یک دستاورد واقعی است. موجودیتهایی که ابزارهای تکزبانه در مرزها از دست میدهند توسط مدلهای چندزبانه پیدا میشوند.
صفحه حفاظتهای ما را ببینید تا بفهمید anonym.legal چگونه با این مشکل برخورد میکند.
اقداماتی که باید همین حالا انجام دهید
دامنه ابزار خود را بررسی کنید. از فروشندهتان بخواهید نمرات recall را بر اساس منطقه جغرافیایی ارائه دهد. «پشتیبانی از زبانهای متعدد» میتواند به معنای عبور متن از ترجمه ماشینی قبل از پویش باشد. این پویش بومی نیست.
فایلهایتان را بر اساس زبان نقشهبرداری کنید. یک شرکت DACH با ۶۰٪ آلمانی، ۳۰٪ فرانسوی و ۱۰٪ انگلیسی شکافهای متفاوتی دارد.
با نمونههای مرزی آزمایش کنید. یک مجموعه آزمایشی با ده نمونه بند چندزبانه بسازید. recall را در سراسر فایل بررسی کنید، نه فقط در بخشهای زبان اصلی.
DPIAهای خود را بررسی کنید. یک DPIA ساختهشده بر اساس سوابق تکزبانه ممکن است ناقص باشد. قبل از اینکه یک حسابرسی آن را پیدا کند آن را اصلاح کنید.
برای جزئیات API و پوشش موجودیت، به صفحه قیمتگذاری مراجعه کنید.
anonym.legal از XLM-RoBERTa بهعلاوه مدلهای بومی spaCy و Stanza استفاده میکند. اطلاعات شخصی را در مرزهای بخشها به آلمانی، فرانسوی، انگلیسی و ۴۵ زبان دیگر پیدا میکند.