تشخیص PII چند زبانه برای GDPR
بهروزرسانی شده برای 2026
شکاف پنهان GDPR
GDPR هیچ ترجیحی برای زبان ندارد. ماده 4(1) «داده شخصی» را بدون نام بردن از زبانی که در آن ظاهر میشود تعریف میکند. یک Steuer-ID آلمانی به همان اندازه یک شماره تأمین اجتماعی ایالات متحده محافظت میشود. یک NIR فرانسوی به همان اندازه یک شماره بیمه ملی بریتانیا تنظیم میشود.
اکثر ابزارهای تشخیص PII فقط برای انگلیسی ساخته شدهاند.
تحقیقات از ACL 2024 نشان داد که ابزارهای NLP ترکیبی برای زبانهای اروپایی به امتیازات F1 از 0.60–0.83 میرسند. ابزارهای فقط انگلیسی برای فرمتهای شناسه ملی غیرانگلیسی نزدیک به صفر امتیاز میگیرند. یک ابزار ممکن است 95% از PII انگلیسی را دریافت کند. با این حال 40-60% از PII آلمانی، فرانسوی، لهستانی یا هلندی را در همان فایل از دست میدهد. این یک مشکل جدی است.
چرا PII خاص محل است
تشخیص PII دو بخش دارد.
اول اسکن مبتنی بر الگو. این شناسههای ساختاریافته مانند شماره مالیاتی و فرمتهای تلفن را پوشش میدهد.
دوم اسکن مبتنی بر NER. این موجودیتهای زمینهای مانند نامها و آدرسها را پوشش میدهد.
هر دو بخش به محل بستگی دارند.
شناسههای ساختاریافته بر اساس کشور متفاوت هستند
| کشور | شناسه مالیاتی | فرمت | اعتبارسنجی |
|---|---|---|---|
| آلمان | Steuer-ID | 11 رقم | Modulo-11 |
| فرانسه | NIR | 15 رقم + کلید 2 رقمی | INSEE |
| سوئد | Personnummer | 10 رقم | Luhn |
| لهستان | PESEL | 11 رقم | Modulo-10 |
| هلند | BSN | 9 رقم | Elfproef |
| اسپانیا | DNI/NIE | 8 رقم + حرف | Modulo-23 |
| ایتالیا | Codice Fiscale | 16 کاراکتر | Checksum سفارشی |
یک regex فقط انگلیسی برای SSNها (NNN-NN-NNNN) هیچکدام از این فرمتها را تطبیق نخواهد داد. هر کدام به regex خود نیاز دارند. هر کدام همچنین به منطق checksum خود نیاز دارند.
NER به مدلهای بومی نیاز دارد
نامهای آلمانی از نامهای انگلیسی متفاوت هستند. "Hans-Dieter Müller" برای یک مدل آلمانی بومی واضح است. یک مدل آموزشدیده انگلیسی اغلب چنین نامهایی را از دست میدهد.
مثبتهای کاذب هم یک مشکل هستند. ردیاب مسائل Microsoft Presidio نشان میدهد کلمات آلمانی به عنوان PII انگلیسی اشتباه طبقهبندی میشوند. کلمه "Null" (آلمانی برای «صفر») یک مثال است. در مدلهای آموزشدیده انگلیسی، ضربههای نام کاذب راهاندازی میکند.
طراحی سه سطحی
تحقیق و استفاده تولیدی روی یک طراحی ترکیبی سه سطحی به عنوان بهترین رویکرد توافق دارند.
سطح 1: مدلهای بومی spaCy
spaCy مدلهای آموزشدیده برای 25 محل ارائه میدهد. این شامل آلمانی، فرانسوی، اسپانیایی، پرتغالی، ایتالیایی، هلندی، روسی، چینی، ژاپنی، کرهای و لهستانی است. هر مدل روی متن بومی آموزش میبیند.
برای آلمانی: de_core_news_lg ترکیب اسمی و الگوهای نام آلمانی را مدیریت میکند.
برای فرانسوی: fr_core_news_lg موجودیتهای فرانسوی، عناوین، نام مکانها و سازمانها را مدیریت میکند.
سطح 2: Stanza برای محلهای بیشتر
کتابخانه Stanza استنفورد محلهایی را که در spaCy نیستند پوشش میدهد. این شامل کرواتی، اسلوونی و اوکراینی است.
سطح 3: XLM-RoBERTa برای دسترسی گسترده
برای محلهایی که spaCy و Stanza مدل NER ندارند، XLM-RoBERTa شکاف را پر میکند. روی متن Common Crawl در 100 محل آموزش میبیند. در آزمونهای NER بینزبانی به 91.4% F1 میرسد (HuggingFace 2024). تغییر کد را به خوبی مدیریت میکند — یک ویژگی کلیدی هنگامی که یک سند متن را در چندین محل نگه میدارد.
انواع موجودیت خاص محل
مدلها به تنهایی کافی نیستند. همسویی GDPR همچنین به دامنه نوع موجودیت برای شناسههای خاص کشور نیاز دارد.
شناسههای ملی EU بر اساس کشور:
- DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
- FR: NIR، SIREN، SIRET
- PL: PESEL، NIP، REGON
- NL: BSN
- SE: Personnummer، Samordningsnummer
- ES: DNI، NIE، NIF، CIF
- IT: Codice Fiscale، Partita IVA
مورد واقعی: داروسازی سوئیسی
یک شرکت سوئیسی قراردادهای استخدامی را پردازش میکند. هر قرارداد متن آلمانی، فرانسوی و انگلیسی را مخلوط میکند. سوئیس چهار زبان رسمی دارد. ابزار آنها فقط برای آلمانی تنظیم شده بود. همه PII بخش فرانسوی را از دست داد.
یک قرارداد برای یک کارمند مستقر در ژنو شامل شماره AVS فرانسوی (13 رقم)، یک IBAN بانکی سوئیسی و یک نام در فرمت فرانسوی بود. ابزار فقط آلمانی نام فرانسوی را از دست داد. نتوانست شماره AVS فرانسوی را پیدا کند. IBAN را فقط جزئی تشخیص داد.
رویکرد سه سطحی کل سند را پردازش میکند. محل را به ازای هر بخش متن تشخیص میدهد. مدل NER مناسب را برای هر بخش اعمال میکند. هر شناسه ملی را با منطق کشور صحیح اعتبارسنجی میکند.
اسناد مختلط محل
سختترین مورد اختلاط محل درون سند است:
- یک قرارداد انگلیسی شرکت آلمانی با سوابق کارمند آلمانی
- یک فرم رضایت GDPR فرانسوی با یک بخش حریم خصوصی انگلیسی
- یک چت که در آن نماینده به انگلیسی پاسخ میدهد و مشتری به عربی مینویسد
XLM-RoBERTa این را به طور بومی مدیریت میکند. به پرچمهای محل صریح نیاز ندارد. متن مختلط محل را بدون تقسیمبندی اولیه پردازش میکند.
مراحل عملی
دسترسی ابزار خود را حسابرسی کنید. از فروشنده ویرایش خود امتیازات F1 برای محلهای خاص خود بخواهید. «20 زبان را پشتیبانی میکند» اغلب به معنای این است که ابزار متن را ابتدا از طریق ترجمه ماشینی هدایت میکند. این اسکن بومی نیست.
سوابق خود را به محلها نگاشت کنید. یک موجودی سوابق انجام دهید که شامل توزیع محل باشد. یک شرکت جهانی با 70% انگلیسی، 20% آلمانی و 10% فرانسوی با خطرات متفاوتی روبرو است.
با نمونههای شناسه ملی آزمایش کنید. یک مجموعه آزمایشی با 10 مثال از شناسههای ملی در عملیات خود بسازید — Steuer-ID، NIR، PESEL، BSN و دیگران. نرخهای تشخیص را تأیید کنید.
DPIAهای خود را بررسی کنید. بررسی کنید که آیا دامنه محل گنجانده شده است. یک DPIA ناقص که سوابق فقط انگلیسی را فرض میکند ممکن است نیاز به بهروزرسانی داشته باشد.
برای تعاریف کامل نوع موجودیت، مرجع موجودیتها و FAQ را ببینید.
موتور تشخیص PII anonym.legal از یک رویکرد سه سطحی چند زبانه استفاده میکند. 25 محل با منابع بالا را از طریق مدلهای بومی spaCy پوشش میدهد. Stanza دسترسی محل اضافی را اضافه میکند. ترانسفورمرهای بینزبانی XLM-RoBERTa دامنه را به 48 محل گسترش میدهند. انواع موجودیت خاص کشور برای همه کشورهای عضو EU گنجانده شدهاند.