به‌روزرسانی شده برای 2026

GDPR هیچ ترجیحی برای زبان ندارد. ماده 4(1) «داده شخصی» را بدون نام بردن از زبانی که در آن ظاهر می‌شود تعریف می‌کند. یک Steuer-ID آلمانی به همان اندازه یک شماره تأمین اجتماعی ایالات متحده محافظت می‌شود. یک NIR فرانسوی به همان اندازه یک شماره بیمه ملی بریتانیا تنظیم می‌شود.

اکثر ابزارهای تشخیص PII فقط برای انگلیسی ساخته شده‌اند.

تحقیقات از ACL 2024 نشان داد که ابزارهای NLP ترکیبی برای زبان‌های اروپایی به امتیازات F1 از 0.60–0.83 می‌رسند. ابزارهای فقط انگلیسی برای فرمت‌های شناسه ملی غیرانگلیسی نزدیک به صفر امتیاز می‌گیرند. یک ابزار ممکن است 95% از PII انگلیسی را دریافت کند. با این حال 40-60% از PII آلمانی، فرانسوی، لهستانی یا هلندی را در همان فایل از دست می‌دهد. این یک مشکل جدی است.

چرا PII خاص محل است

تشخیص PII دو بخش دارد.

اول اسکن مبتنی بر الگو. این شناسه‌های ساختاریافته مانند شماره مالیاتی و فرمت‌های تلفن را پوشش می‌دهد.

دوم اسکن مبتنی بر NER. این موجودیت‌های زمینه‌ای مانند نام‌ها و آدرس‌ها را پوشش می‌دهد.

هر دو بخش به محل بستگی دارند.

شناسه‌های ساختاریافته بر اساس کشور متفاوت هستند

کشور	شناسه مالیاتی	فرمت	اعتبارسنجی
آلمان	Steuer-ID	11 رقم	Modulo-11
فرانسه	NIR	15 رقم + کلید 2 رقمی	INSEE
سوئد	Personnummer	10 رقم	Luhn
لهستان	PESEL	11 رقم	Modulo-10
هلند	BSN	9 رقم	Elfproef
اسپانیا	DNI/NIE	8 رقم + حرف	Modulo-23
ایتالیا	Codice Fiscale	16 کاراکتر	Checksum سفارشی

یک regex فقط انگلیسی برای SSN‌ها (NNN-NN-NNNN) هیچ‌کدام از این فرمت‌ها را تطبیق نخواهد داد. هر کدام به regex خود نیاز دارند. هر کدام همچنین به منطق checksum خود نیاز دارند.

NER به مدل‌های بومی نیاز دارد

نام‌های آلمانی از نام‌های انگلیسی متفاوت هستند. "Hans-Dieter Müller" برای یک مدل آلمانی بومی واضح است. یک مدل آموزش‌دیده انگلیسی اغلب چنین نام‌هایی را از دست می‌دهد.

مثبت‌های کاذب هم یک مشکل هستند. ردیاب مسائل Microsoft Presidio نشان می‌دهد کلمات آلمانی به عنوان PII انگلیسی اشتباه طبقه‌بندی می‌شوند. کلمه "Null" (آلمانی برای «صفر») یک مثال است. در مدل‌های آموزش‌دیده انگلیسی، ضربه‌های نام کاذب راه‌اندازی می‌کند.

طراحی سه سطحی

تحقیق و استفاده تولیدی روی یک طراحی ترکیبی سه سطحی به عنوان بهترین رویکرد توافق دارند.

سطح 1: مدل‌های بومی spaCy

spaCy مدل‌های آموزش‌دیده برای 25 محل ارائه می‌دهد. این شامل آلمانی، فرانسوی، اسپانیایی، پرتغالی، ایتالیایی، هلندی، روسی، چینی، ژاپنی، کره‌ای و لهستانی است. هر مدل روی متن بومی آموزش می‌بیند.

برای آلمانی: de_core_news_lg ترکیب اسمی و الگوهای نام آلمانی را مدیریت می‌کند. برای فرانسوی: fr_core_news_lg موجودیت‌های فرانسوی، عناوین، نام مکان‌ها و سازمان‌ها را مدیریت می‌کند.

سطح 2: Stanza برای محل‌های بیشتر

کتابخانه Stanza استنفورد محل‌هایی را که در spaCy نیستند پوشش می‌دهد. این شامل کرواتی، اسلوونی و اوکراینی است.

سطح 3: XLM-RoBERTa برای دسترسی گسترده

برای محل‌هایی که spaCy و Stanza مدل NER ندارند، XLM-RoBERTa شکاف را پر می‌کند. روی متن Common Crawl در 100 محل آموزش می‌بیند. در آزمون‌های NER بین‌زبانی به 91.4% F1 می‌رسد (HuggingFace 2024). تغییر کد را به خوبی مدیریت می‌کند — یک ویژگی کلیدی هنگامی که یک سند متن را در چندین محل نگه می‌دارد.

انواع موجودیت خاص محل

مدل‌ها به تنهایی کافی نیستند. همسویی GDPR همچنین به دامنه نوع موجودیت برای شناسه‌های خاص کشور نیاز دارد.

شناسه‌های ملی EU بر اساس کشور:

DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
FR: NIR، SIREN، SIRET
PL: PESEL، NIP، REGON
NL: BSN
SE: Personnummer، Samordningsnummer
ES: DNI، NIE، NIF، CIF
IT: Codice Fiscale، Partita IVA

مورد واقعی: داروسازی سوئیسی

یک شرکت سوئیسی قراردادهای استخدامی را پردازش می‌کند. هر قرارداد متن آلمانی، فرانسوی و انگلیسی را مخلوط می‌کند. سوئیس چهار زبان رسمی دارد. ابزار آنها فقط برای آلمانی تنظیم شده بود. همه PII بخش فرانسوی را از دست داد.

یک قرارداد برای یک کارمند مستقر در ژنو شامل شماره AVS فرانسوی (13 رقم)، یک IBAN بانکی سوئیسی و یک نام در فرمت فرانسوی بود. ابزار فقط آلمانی نام فرانسوی را از دست داد. نتوانست شماره AVS فرانسوی را پیدا کند. IBAN را فقط جزئی تشخیص داد.

رویکرد سه سطحی کل سند را پردازش می‌کند. محل را به ازای هر بخش متن تشخیص می‌دهد. مدل NER مناسب را برای هر بخش اعمال می‌کند. هر شناسه ملی را با منطق کشور صحیح اعتبارسنجی می‌کند.

اسناد مختلط محل

سخت‌ترین مورد اختلاط محل درون سند است:

یک قرارداد انگلیسی شرکت آلمانی با سوابق کارمند آلمانی
یک فرم رضایت GDPR فرانسوی با یک بخش حریم خصوصی انگلیسی
یک چت که در آن نماینده به انگلیسی پاسخ می‌دهد و مشتری به عربی می‌نویسد

XLM-RoBERTa این را به طور بومی مدیریت می‌کند. به پرچم‌های محل صریح نیاز ندارد. متن مختلط محل را بدون تقسیم‌بندی اولیه پردازش می‌کند.

مراحل عملی

دسترسی ابزار خود را حسابرسی کنید. از فروشنده ویرایش خود امتیازات F1 برای محل‌های خاص خود بخواهید. «20 زبان را پشتیبانی می‌کند» اغلب به معنای این است که ابزار متن را ابتدا از طریق ترجمه ماشینی هدایت می‌کند. این اسکن بومی نیست.

سوابق خود را به محل‌ها نگاشت کنید. یک موجودی سوابق انجام دهید که شامل توزیع محل باشد. یک شرکت جهانی با 70% انگلیسی، 20% آلمانی و 10% فرانسوی با خطرات متفاوتی روبرو است.

با نمونه‌های شناسه ملی آزمایش کنید. یک مجموعه آزمایشی با 10 مثال از شناسه‌های ملی در عملیات خود بسازید — Steuer-ID، NIR، PESEL، BSN و دیگران. نرخ‌های تشخیص را تأیید کنید.

DPIA‌های خود را بررسی کنید. بررسی کنید که آیا دامنه محل گنجانده شده است. یک DPIA ناقص که سوابق فقط انگلیسی را فرض می‌کند ممکن است نیاز به به‌روزرسانی داشته باشد.

برای تعاریف کامل نوع موجودیت، مرجع موجودیت‌ها و FAQ را ببینید.

موتور تشخیص PII anonym.legal از یک رویکرد سه سطحی چند زبانه استفاده می‌کند. 25 محل با منابع بالا را از طریق مدل‌های بومی spaCy پوشش می‌دهد. Stanza دسترسی محل اضافی را اضافه می‌کند. ترانسفورمرهای بین‌زبانی XLM-RoBERTa دامنه را به 48 محل گسترش می‌دهند. انواع موجودیت خاص کشور برای همه کشورهای عضو EU گنجانده شده‌اند.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

تشخیص PII چند زبانه برای GDPR