By · Last updated 2026-03-03

بازگشت به وبلاگGDPR و انطباق

تشخیص PII چند زبانه برای GDPR

Steuer-ID آلمانی، NIR فرانسوی و Personnummer سوئدی همه به منطق تشخیص متفاوتی نیاز دارند.

March 3, 202610 دقیقه مطالعه
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

تشخیص PII چند زبانه برای GDPR

به‌روزرسانی شده برای 2026

شکاف پنهان GDPR

GDPR هیچ ترجیحی برای زبان ندارد. ماده 4(1) «داده شخصی» را بدون نام بردن از زبانی که در آن ظاهر می‌شود تعریف می‌کند. یک Steuer-ID آلمانی به همان اندازه یک شماره تأمین اجتماعی ایالات متحده محافظت می‌شود. یک NIR فرانسوی به همان اندازه یک شماره بیمه ملی بریتانیا تنظیم می‌شود.

اکثر ابزارهای تشخیص PII فقط برای انگلیسی ساخته شده‌اند.

تحقیقات از ACL 2024 نشان داد که ابزارهای NLP ترکیبی برای زبان‌های اروپایی به امتیازات F1 از 0.60–0.83 می‌رسند. ابزارهای فقط انگلیسی برای فرمت‌های شناسه ملی غیرانگلیسی نزدیک به صفر امتیاز می‌گیرند. یک ابزار ممکن است 95% از PII انگلیسی را دریافت کند. با این حال 40-60% از PII آلمانی، فرانسوی، لهستانی یا هلندی را در همان فایل از دست می‌دهد. این یک مشکل جدی است.

چرا PII خاص محل است

تشخیص PII دو بخش دارد.

اول اسکن مبتنی بر الگو. این شناسه‌های ساختاریافته مانند شماره مالیاتی و فرمت‌های تلفن را پوشش می‌دهد.

دوم اسکن مبتنی بر NER. این موجودیت‌های زمینه‌ای مانند نام‌ها و آدرس‌ها را پوشش می‌دهد.

هر دو بخش به محل بستگی دارند.

شناسه‌های ساختاریافته بر اساس کشور متفاوت هستند

کشورشناسه مالیاتیفرمتاعتبارسنجی
آلمانSteuer-ID11 رقمModulo-11
فرانسهNIR15 رقم + کلید 2 رقمیINSEE
سوئدPersonnummer10 رقمLuhn
لهستانPESEL11 رقمModulo-10
هلندBSN9 رقمElfproef
اسپانیاDNI/NIE8 رقم + حرفModulo-23
ایتالیاCodice Fiscale16 کاراکترChecksum سفارشی

یک regex فقط انگلیسی برای SSN‌ها (NNN-NN-NNNN) هیچ‌کدام از این فرمت‌ها را تطبیق نخواهد داد. هر کدام به regex خود نیاز دارند. هر کدام همچنین به منطق checksum خود نیاز دارند.

NER به مدل‌های بومی نیاز دارد

نام‌های آلمانی از نام‌های انگلیسی متفاوت هستند. "Hans-Dieter Müller" برای یک مدل آلمانی بومی واضح است. یک مدل آموزش‌دیده انگلیسی اغلب چنین نام‌هایی را از دست می‌دهد.

مثبت‌های کاذب هم یک مشکل هستند. ردیاب مسائل Microsoft Presidio نشان می‌دهد کلمات آلمانی به عنوان PII انگلیسی اشتباه طبقه‌بندی می‌شوند. کلمه "Null" (آلمانی برای «صفر») یک مثال است. در مدل‌های آموزش‌دیده انگلیسی، ضربه‌های نام کاذب راه‌اندازی می‌کند.

طراحی سه سطحی

تحقیق و استفاده تولیدی روی یک طراحی ترکیبی سه سطحی به عنوان بهترین رویکرد توافق دارند.

سطح 1: مدل‌های بومی spaCy

spaCy مدل‌های آموزش‌دیده برای 25 محل ارائه می‌دهد. این شامل آلمانی، فرانسوی، اسپانیایی، پرتغالی، ایتالیایی، هلندی، روسی، چینی، ژاپنی، کره‌ای و لهستانی است. هر مدل روی متن بومی آموزش می‌بیند.

برای آلمانی: de_core_news_lg ترکیب اسمی و الگوهای نام آلمانی را مدیریت می‌کند. برای فرانسوی: fr_core_news_lg موجودیت‌های فرانسوی، عناوین، نام مکان‌ها و سازمان‌ها را مدیریت می‌کند.

سطح 2: Stanza برای محل‌های بیشتر

کتابخانه Stanza استنفورد محل‌هایی را که در spaCy نیستند پوشش می‌دهد. این شامل کرواتی، اسلوونی و اوکراینی است.

سطح 3: XLM-RoBERTa برای دسترسی گسترده

برای محل‌هایی که spaCy و Stanza مدل NER ندارند، XLM-RoBERTa شکاف را پر می‌کند. روی متن Common Crawl در 100 محل آموزش می‌بیند. در آزمون‌های NER بین‌زبانی به 91.4% F1 می‌رسد (HuggingFace 2024). تغییر کد را به خوبی مدیریت می‌کند — یک ویژگی کلیدی هنگامی که یک سند متن را در چندین محل نگه می‌دارد.

انواع موجودیت خاص محل

مدل‌ها به تنهایی کافی نیستند. همسویی GDPR همچنین به دامنه نوع موجودیت برای شناسه‌های خاص کشور نیاز دارد.

شناسه‌های ملی EU بر اساس کشور:

  • DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
  • FR: NIR، SIREN، SIRET
  • PL: PESEL، NIP، REGON
  • NL: BSN
  • SE: Personnummer، Samordningsnummer
  • ES: DNI، NIE، NIF، CIF
  • IT: Codice Fiscale، Partita IVA

مورد واقعی: داروسازی سوئیسی

یک شرکت سوئیسی قراردادهای استخدامی را پردازش می‌کند. هر قرارداد متن آلمانی، فرانسوی و انگلیسی را مخلوط می‌کند. سوئیس چهار زبان رسمی دارد. ابزار آنها فقط برای آلمانی تنظیم شده بود. همه PII بخش فرانسوی را از دست داد.

یک قرارداد برای یک کارمند مستقر در ژنو شامل شماره AVS فرانسوی (13 رقم)، یک IBAN بانکی سوئیسی و یک نام در فرمت فرانسوی بود. ابزار فقط آلمانی نام فرانسوی را از دست داد. نتوانست شماره AVS فرانسوی را پیدا کند. IBAN را فقط جزئی تشخیص داد.

رویکرد سه سطحی کل سند را پردازش می‌کند. محل را به ازای هر بخش متن تشخیص می‌دهد. مدل NER مناسب را برای هر بخش اعمال می‌کند. هر شناسه ملی را با منطق کشور صحیح اعتبارسنجی می‌کند.

اسناد مختلط محل

سخت‌ترین مورد اختلاط محل درون سند است:

  • یک قرارداد انگلیسی شرکت آلمانی با سوابق کارمند آلمانی
  • یک فرم رضایت GDPR فرانسوی با یک بخش حریم خصوصی انگلیسی
  • یک چت که در آن نماینده به انگلیسی پاسخ می‌دهد و مشتری به عربی می‌نویسد

XLM-RoBERTa این را به طور بومی مدیریت می‌کند. به پرچم‌های محل صریح نیاز ندارد. متن مختلط محل را بدون تقسیم‌بندی اولیه پردازش می‌کند.

مراحل عملی

دسترسی ابزار خود را حسابرسی کنید. از فروشنده ویرایش خود امتیازات F1 برای محل‌های خاص خود بخواهید. «20 زبان را پشتیبانی می‌کند» اغلب به معنای این است که ابزار متن را ابتدا از طریق ترجمه ماشینی هدایت می‌کند. این اسکن بومی نیست.

سوابق خود را به محل‌ها نگاشت کنید. یک موجودی سوابق انجام دهید که شامل توزیع محل باشد. یک شرکت جهانی با 70% انگلیسی، 20% آلمانی و 10% فرانسوی با خطرات متفاوتی روبرو است.

با نمونه‌های شناسه ملی آزمایش کنید. یک مجموعه آزمایشی با 10 مثال از شناسه‌های ملی در عملیات خود بسازید — Steuer-ID، NIR، PESEL، BSN و دیگران. نرخ‌های تشخیص را تأیید کنید.

DPIA‌های خود را بررسی کنید. بررسی کنید که آیا دامنه محل گنجانده شده است. یک DPIA ناقص که سوابق فقط انگلیسی را فرض می‌کند ممکن است نیاز به به‌روزرسانی داشته باشد.

برای تعاریف کامل نوع موجودیت، مرجع موجودیت‌ها و FAQ را ببینید.


موتور تشخیص PII anonym.legal از یک رویکرد سه سطحی چند زبانه استفاده می‌کند. 25 محل با منابع بالا را از طریق مدل‌های بومی spaCy پوشش می‌دهد. Stanza دسترسی محل اضافی را اضافه می‌کند. ترانسفورمرهای بین‌زبانی XLM-RoBERTa دامنه را به 48 محل گسترش می‌دهند. انواع موجودیت خاص کشور برای همه کشورهای عضو EU گنجانده شده‌اند.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.