By · Last updated 2026-03-20

بازگشت به وبلاگGDPR و انطباق

ابزارهای PII انگلیسی‌محور: شکاف GDPR

آلمانی Steuer-ID (۱۱ رقم با چک‌سام) از نظر ساختاری با SSN آمریکایی متفاوت است. شماره‌های NIR فرانسه ۱۵ رقم دارند. PESEL لهستانی و Personnummer سوئدی هر کدام منطق خاص خود را دارند.

March 20, 20268 دقیقه مطالعه
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

ابزارهای PII انگلیسی‌محور: شکاف GDPR

GDPR ترجیح زبانی ندارد

GDPR داده‌های شخصی را در هر زبانی پوشش می‌دهد. آلمانی، فرانسوی، لهستانی، سوئدی — همه به یک اندازه پوشش داده می‌شوند. یک Steuer-ID از دست رفته همان ریسک قانونی یک شماره تأمین اجتماعی آمریکایی از دست رفته را ایجاد می‌کند. قانون به زبان اهمیت نمی‌دهد.

اکثر ابزارهای تشخیص PII این‌گونه نیستند.

ابزارهای تجاری و متن‌باز پیشرو برای متن انگلیسی ساخته شده‌اند. آشکارسازهای موجودیت آن‌ها این را نشان می‌دهند. آن‌ها شماره‌های تأمین اجتماعی آمریکا، گواهینامه رانندگی آمریکا، و فرمت‌های تلفن NANP را به‌خوبی پوشش می‌دهند. آشکارسازها برای شناسه‌های ملی غیرانگلیسی دقیق‌تر نیستند. کمتر به‌روز نگه داشته می‌شوند. بیشتر شناسه‌های واقعی را از دست می‌دهند.

برای شرکت‌ها در سراسر کشورهای عضو اتحادیه اروپا، این یک شکاف پوشش ایجاد می‌کند. ابزار می‌گوید تشخیص کامل است. اما شناسه‌های غیرانگلیسی در داده باقی می‌مانند. اینها اغلب شناسه‌هایی هستند که در کشورهای خاص بیشترین مواجهه GDPR را دارند.

مراجع داده این را می‌بینند. بازرسان به دنبال آن می‌گردند. یک ابزار ممکن است روی پرونده‌های انگلیسی خوب کار کند. اما اگر روی پرونده‌های آلمانی یا فرانسوی شکست بخورد، انطباق ندارد. یک گزارش تمیز این را تغییر نمی‌دهد.

شناسه‌های ملی از نظر ساختار متفاوتند

شکاف بین ابزارهای انگلیسی‌محور و ابزارهای چندزبانه، درباره اضافه کردن الگوهای regex بیشتر نیست. شناسه‌های ملی اتحادیه اروپا از یکدیگر بسیار متفاوتند. برای تشخیص صحیح به منطق خاص هر کشور نیاز دارند.

Steuer-Identifikationsnummer آلمانی (Steuer-ID): ۱۱ رقم. از یک چک‌سام بر اساس یک نوع فرمول Luhn استفاده می‌کند. یک regex عمومی SSN آن را تشخیص نخواهد داد. یک regex برای هر عدد ۱۱ رقمی در اسناد آلمانی مثبت کاذب زیادی ایجاد می‌کند.

NIR فرانسوی (Numéro d'inscription au répertoire): ۱۵ رقم. فرمت جنسیت، سال تولد، ماه تولد، و استان تولد را کدگذاری می‌کند. همچنین شامل ترتیب تولد و یک کلید کنترل ۲ رقمی است. کلید کنترل باید برای تشخیص صحیح اعتبارسنجی شود.

Personnummer سوئدی: ۱۰ رقم با یک رقم بررسی Luhn. افرادی که قبل از ۱۹۹۰ متولد شده‌اند از جداکننده + به جای - استفاده می‌کنند. این فرمتی را که باید تشخیص داده شود تغییر می‌دهد.

PESEL لهستانی: ۱۱ رقم. تاریخ تولد، جنسیت، و یک رقم بررسی بر اساس مجموع وزن‌دار را کدگذاری می‌کند. تشخیص صحیح به هر دو تطابق فرمت و اعتبارسنجی چک‌سام نیاز دارد.

اینها گونه‌های یک الگوی مشترک نیستند. هر کدام طول متفاوتی دارند. هر کدام از روش بررسی متفاوتی استفاده می‌کنند. هر کدام داده را در یک طرح موقعیتی متفاوت کدگذاری می‌کنند. یک مدل NER آموزش‌دیده بر انگلیسی که یک NIR فرانسوی می‌بیند آن را به عنوان شناسه ملی تشخیص نخواهد داد. آن را نادیده می‌گیرد یا اشتباه طبقه‌بندی می‌کند.

ریسک انطباق عملی

یک مسئول انطباق در یک BPO اروپایی را در نظر بگیرید. آن‌ها به‌طور همزمان داده‌هایی از آلمان، فرانسه، لهستان، و هلند پردازش می‌کنند. ابزارشان گزارش ناشناس‌سازی موفق PII می‌دهد.

اما نتیجه کامل نیست. Steuer-IDها در پرونده‌های آلمانی باقی می‌مانند. شماره‌های NIR در پرونده‌های فرانسوی باقی می‌مانند. شماره‌های PESEL در پرونده‌های لهستانی باقی می‌مانند. آشکارسازهای ابزار برای این فرمت‌ها غایب یا خیلی نادقیق هستند.

بعداً، مجموعه داده به تجزیه‌وتحلیل یا یک شریک تحقیقاتی می‌رود. داده هنوز حاوی شناسه‌های ملی قابل شناسایی مجدد است. مشکل GDPR در گزارش‌های خروجی ابزار ظاهر نمی‌شود. وقتی درخواست دسترسی موضوع داده می‌رسد ظاهر می‌شود. ممکن است در طول بازرسی مرجع داده ظاهر شود. ممکن است بعد از نقض داده ظاهر شود.

تحقیقات مقایسه رویکردهای چندزبانه ترکیبی با ابزارهای انگلیسی‌محور نتایج روشنی نشان داد. روش‌های ترکیبی امتیازهای F1 از ۰.۶۰ تا ۰.۸۳ در مناطق اروپایی به دست می‌آورند. ابزارهای انگلیسی‌محور برای فرمت‌های شناسه ملی غیرانگلیسی امتیاز نزدیک به صفر می‌گیرند.

برای نحوه نگاشت این شکاف‌ها به تعهدات GDPR، مروری بر انطباق GDPR ما را ببینید.

آنچه پوشش کامل نیاز دارد

تشخیص واقعی PII چندزبانه برای انطباق GDPR اتحادیه اروپا به سه لایه نیاز دارد.

مدل‌های spaCy بومی‌زبان درک معنایی در زبان متن را فراهم می‌کنند. یک مدل آموزش‌دیده روی متن آلمانی می‌داند که «Müller» یک نام خانوادگی آلمانی رایج است. مدل‌ها برای ۲۵ زبان اروپایی با منابع بالا وجود دارند.

مدل‌های Stanza NLP پوشش را به زبان‌هایی که در spaCy نیستند گسترش می‌دهند. این دسترسی را برای جوامع زبانی بیشتر اتحادیه اروپا اضافه می‌کند.

مدل‌های ترانسفورمر چندزبانه (XLM-RoBERTa) موارد میان‌زبانی را مدیریت می‌کنند. یک نام در یک جمله فرانسوی به عنوان نام شخص تشخیص داده می‌شود. این حتی اگر موتور روی آن نام خاص آموزش ندیده باشد کار می‌کند.

Regex با اعتبارسنجی خاص هر کشور شناسه‌های ملی ساختارمند را پوشش می‌دهد. Steuer-ID، NIR، PESEL، و Personnummer هر کدام به منطق چک‌سام خود نیاز دارند. این مثبت‌های کاذب را کاهش می‌دهد. دنباله‌های ارقامی که قوانین اعتبارسنجی کشور را رد می‌کنند فیلتر می‌شوند.

شکاف ساختاری است. اضافه کردن لیست‌های کلمه یا الگوهای regex بیشتر فقط بهبود جزئی ایجاد می‌کند. ساختن پوشش شناسه اتحادیه اروپا از ابتدا تنها رویکرد قابل اعتماد است.

ابزار فعلی خود را بررسی کنید

از فروشنده خود امتیازهای F1 روی پرونده‌های آلمانی، فرانسوی، لهستانی، و هلندی بخواهید. «پشتیبانی از چندین زبان» اغلب به این معنی است که ابزار ابتدا از ترجمه استفاده می‌کند. این اسکن بومی نیست. انطباق GDPR نیاز به اسکن بومی دارد.

با نمونه‌های شناسه ملی واقعی آزمایش کنید. یک مجموعه آزمایشی کوتاه با ۱۰ نمونه از هر نوع شناسه در عملیاتتان بسازید. Steuer-ID، NIR، PESEL، Personnummer. نرخ‌های تشخیص را بررسی کنید. این سریع‌تر از یک آزمون F1 کامل است و شکاف‌ها را سریع نشان می‌دهد.

برای نحوه برخورد anonym.legal با این الزامات، صفحه امنیت و انطباق ما را ببینید. برای تعریف‌های نوع موجودیت، به مرجع موجودیت‌ها مراجعه کنید.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.