By · Last updated 2026-03-03

العودة إلى المدونةالامتثال لـ GDPR

اكتشاف PII متعدد اللغات للامتثال لـ GDPR

رقم التعريف الضريبي الألماني Steuer-ID ورقم NIR الفرنسي والرقم الشخصي السويدي Personnummer تتطلب جميعها منطق اكتشاف مختلف.

March 3, 202610 دقيقة قراءة
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

اكتشاف PII متعدد اللغات للامتثال لـ GDPR

محدَّث لعام 2026

الفجوة الخفية في GDPR

لا يُفضّل GDPR أي لغة. تُعرّف المادة 4(1) "البيانات الشخصية" دون تسمية اللغة التي تظهر فيها. رقم Steuer-ID الألماني محمي بنفس قدر حماية رقم الضمان الاجتماعي الأمريكي. رقم NIR الفرنسي خاضع للتنظيم بنفس قدر خضوع رقم التأمين الوطني البريطاني.

معظم أدوات اكتشاف PII بُنيت للإنجليزية فقط.

وجد بحث من ACL 2024 أن أدوات NLP الهجينة تحقق درجات F1 تتراوح بين 0.60 و0.83 للموقعيات الأوروبية. الأدوات الإنجليزية فقط تسجّل قريباً من الصفر لتنسيقات معرّفات وطنية غير إنجليزية. الفجوة صارخة. أداة ما قد تلتقط 95% من PII الإنجليزية. لكنها تفوّت 40–60% من PII الألمانية أو الفرنسية أو البولندية أو الهولندية في الملف ذاته. هذه مشكلة خطيرة. تُعرّض الشركات للخطر.

هذه فجوة GDPR حقيقية. تؤثر على كل شركة عالمية تقريباً تستخدم أدوات حجب تمركزت على الإنجليزية. اطّلع على دليل GDPR لمزيد من المعلومات.

لماذا PII خاص بالموقع

اكتشاف PII يتضمن جزأين.

الأول هو المسح القائم على الأنماط. يغطّي المعرّفات المنظَّمة مثل أرقام الضرائب وتنسيقات الهاتف.

الثاني هو المسح القائم على التعرف على الكيانات. يغطّي الكيانات السياقية مثل الأسماء والعناوين.

كلا الجزأين يعتمدان على الموقع.

المعرّفات المنظَّمة تختلف حسب الدولة

الدولةمعرّف الضريبةالتنسيقالتحقق
ألمانياSteuer-ID11 رقماًModulo-11
فرنساNIR15 رقماً + مفتاح رقمينINSEE
السويدPersonnummer10 أرقامLuhn
بولنداPESEL11 رقماًModulo-10
هولنداBSN9 أرقامElfproef
إسبانياDNI/NIE8 أرقام + حرفModulo-23
إيطالياCodice Fiscale16 حرفاًمجموع تحقق مخصص

Regex إنجليزية لأرقام SSN (NNN-NN-NNNN) لن تطابق أياً من هذه التنسيقات. كل منها يحتاج regex خاصه. كل منها يحتاج أيضاً منطق مجموع تحقق خاصه.

التعرف على الكيانات يحتاج نماذج أصلية

الأسماء الألمانية تختلف عن الإنجليزية. "Hans-Dieter Müller" واضح لنموذج ألماني أصلي. النموذج المدرَّب على الإنجليزية غالباً ما يفوّت مثل هذه الأسماء.

الإيجابيات الكاذبة مشكلة أيضاً. يُظهر متتبع مشكلات Microsoft Presidio كلمات ألمانية تُصنَّف بشكل خاطئ كـPII إنجليزية. كلمة "Null" (صفر بالألمانية) مثال على ذلك. تُطلق نتائج أسماء كاذبة في النماذج المدرَّبة على الإنجليزية. في الاستخدام الإنتاجي، معدلات الخطأ ترتفع إلى 3 إيجابيات كاذبة لكل كيان حقيقي (Alvaro et al., 2024).

المخاطر التنظيمية

الجهات الأوروبية لحماية البيانات تدرك هذه المشكلة. أصدرت عدة هيئات حماية بيانات وطنية توجيهات.

BfDI الألماني: تنطبق المادة 5(1)(f) من GDPR على جميع السجلات. تغطّي البيانات غير الإنجليزية التي تُعالجها أدوات طرف ثالث.

CNIL الفرنسية: أشار التقرير السنوي لـ CNIL لعام 2024 إلى مخاوف. سلّط الضوء على أدوات الذكاء الاصطناعي التي تتعامل مع السجلات الفرنسية بدون مسح PII بالموقع الفرنسي.

هيئات حماية البيانات الأوروبية عموماً: تتطلب المادة 25 من GDPR (الخصوصية بالتصميم) ضمانات مناسبة للسجلات الفعلية التي تتم معالجتها. يشمل ذلك PII غير الإنجليزية في عمليات النشر العالمية.

المخاطرة واضحة. قد تُظهر شركة ما اكتشاف 95% لـPII على المحتوى الإنجليزي في تدقيق GDPR. لكن إذا كانت تتعامل أيضاً مع سجلات ألمانية وفرنسية وبولندية بالأداة ذاتها، ستظهر الفجوات. المدققون يلاحظون. قد تتبع الغرامات. اطّلع على صفحة الضمانات لدينا لمعرفة كيف نعالج هذا.

التصميم ثلاثي الطبقات

يتفق البحث والاستخدام الإنتاجي على تصميم هجين ثلاثي الطبقات كأفضل نهج.

الطبقة 1: نماذج spaCy الأصلية

توفّر spaCy نماذج مدرَّبة لـ 25 موقعاً. تشمل الألمانية والفرنسية والإسبانية والبرتغالية والإيطالية والهولندية والروسية والصينية واليابانية والكورية والبولندية. كل نموذج يتدرب على نصوص أصلية. تتعلم بنية وأنماط كيانات كل موقع. هذا مهم. التدريب الأصلي يعني استدعاءً أفضل وإيجابيات كاذبة أقل.

للألمانية: يتعامل de_core_news_lg مع الكلمات المركبة وأنماط الأسماء الألمانية. للفرنسية: يتعامل fr_core_news_lg مع الكيانات الفرنسية والألقاب وأسماء الأماكن والمنظمات.

النماذج الأصلية تتفوق على النماذج متعددة اللغات في مسح الأسماء للمواقع عالية الموارد.

الطبقة 2: Stanza لمزيد من المواقع

تغطّي مكتبة Stanza من Stanford المواقع غير الموجودة في spaCy. تشمل الكرواتية والسلوفينية والأوكرانية. هذا يُضيف نطاقاً لمجموعات المتحدثين الأوروبيين التي لا تخدمها spaCy. Stanza مجانية ومفتوحة المصدر. تتكامل جيداً مع بقية المكدّس.

الطبقة 3: XLM-RoBERTa للنطاق الواسع

للمواقع التي تفتقر فيها spaCy وStanza لنماذج التعرف على الكيانات، يسد XLM-RoBERTa الفجوة. يتدرب على نصوص Common Crawl عبر 100 موقع. يحقق 91.4% درجة F1 متعددة اللغات لاكتشاف PII (HuggingFace 2024). يتعامل جيداً مع التحويل بين الرموز. هذه ميزة رئيسية. تهم عندما يحتوي مستند واحد على نص بمواقع متعددة في آن واحد.

aطّلع على وثائق نظام الرموز لترى كيف تتوسع استدعاءات API مع الحجم متعدد اللغات.

أنواع الكيانات الخاصة بالموقع

النماذج وحدها لا تكفي. يتطلب التوافق مع GDPR أيضاً نطاق نوع الكيان للمعرّفات الوطنية الخاصة بكل دولة.

معرّفات وطنية أوروبية حسب الدولة:

  • DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
  • FR: NIR، SIREN، SIRET
  • PL: PESEL، NIP، REGON
  • NL: BSN
  • SE: Personnummer، Samordningsnummer
  • ES: DNI، NIE، NIF، CIF
  • IT: Codice Fiscale، Partita IVA

تنسيقات الهاتف: لكل دولة أوروبية بنى بادئات فريدة. كل من +49 و+33 و+48 يحتاج منطق تحقق خاصه.

تنسيقات العناوين: الرموز البريدية تتباين كثيراً. الرمز الألماني PLZ يستخدم 5 أرقام. الرموز الفرنسية تستخدم 5 أرقام (نطاق 01–99). الرموز البريدية البريطانية أبجدية رقمية. الرموز الإسبانية تستخدم 5 أرقام (01000–52999).

حالة واقعية: شركة أدوية سويسرية

تعالج شركة سويسرية عقود عمل. كل عقد يمزج نصوصاً ألمانية وفرنسية وإنجليزية. سويسرا لديها أربع لغات رسمية. كانت أداتهم مُعدَّة للألمانية فقط. فاتتها جميع بيانات PII في الأقسام الفرنسية.

تضمّن عقد موظف مقيم في جنيف رقم AVS فرنسياً (13 رقماً) وIBAN بنك سويسري واسماً بتنسيق فرنسي. فاتت الأداة الألمانية فقط الاسم بالتنسيق الفرنسي. فشلت في إيجاد رقم AVS الفرنسي. اكتشفت IBAN جزئياً فقط.

النهج ثلاثي الطبقات يعالج المستند بأكمله. يكتشف الموقع لكل مقطع نصي. يطبّق نموذج التعرف على الكيانات الصحيح لكل جزء. يتحقق من كل معرّف وطني بمنطق الدولة الصحيح.

المستندات متعددة المواقع

الحالة الأصعب هي مزج المواقع داخل المستند. أمثلة:

  • عقد إنجليزي لشركة ألمانية مع سجلات موظفين ألمانية (أسماء، معرّفات ضريبية)
  • نموذج موافقة GDPR فرنسي مع مقطع خصوصية إنجليزي
  • محادثة حيث يرد الوكيل بالإنجليزية ويكتب العميل بالعربية

يتعامل XLM-RoBERTa مع هذا بشكل أصلي. لا يحتاج علامات موقع صريحة. يعالج النص متعدد المواقع بدون تقسيم مسبق. هذا يوفّر الوقت. ويتجنب أيضاً الأخطاء الناجمة عن التقسيمات الخاطئة.

للاستخدام الإنتاجي، يُعطي الجمع بين الاكتشاف التلقائي للموقع (على مستوى الجملة) واستنتاج XLM-RoBERTa معالجة قوية للمستندات متعددة المواقع.

خطوات عملية

دقّق نطاق أداتك. اسأل مورّد الحجب الخاص بك عن درجات F1 لمواقعك المحددة. "تدعم 20 لغة" غالباً ما يعني أن الأداة توجّه النص عبر الترجمة الآلية أولاً. هذا ليس مسحاً أصلياً.

رسّم سجلاتك على المواقع. أجرِ جرداً للسجلات يشمل توزيع المواقع. شركة عالمية تمتلك 70% إنجليزية و20% ألمانية و10% فرنسية تواجه مخاطر مختلفة. شركة بـ 95% إنجليزية في وضع مختلف.

اختبر بعيّنات المعرّفات الوطنية. ابنِ مجموعة اختبار بـ 10 أمثلة للمعرّفات الوطنية في عملياتك — Steuer-ID وNIR وPESEL وBSN وغيرها. تحقق من معدلات الاكتشاف. هذا أسرع من اختبار F1 كامل.

راجع DPIAs الخاصة بك. تحقق إذا كان نطاق الموقع مُدرَجاً. DPIA ناقصة تفترض سجلات إنجليزية فقط قد تحتاج تحديثاً. تصرّف الآن. لا تنتظر تدقيقاً ليكتشف الفجوة.

لتعريفات نوع الكيان الكاملة، اطّلع على مرجع الكيانات والأسئلة الشائعة. للخطط ومعدلات استدعاء API، زر الأسعار.


محرك اكتشاف PII في anonym.legal يستخدم نهجاً متعدد اللغات ثلاثي الطبقات. يغطّي 25 موقعاً عالي الموارد عبر نماذج spaCy الأصلية. تُضيف Stanza نطاقاً موقعياً إضافياً. تمتد محوّلات XLM-RoBERTa متعددة اللغات النطاق إلى 48 موقعاً. أنواع الكيانات الخاصة بالدولة لجميع الدول الأعضاء في الاتحاد الأوروبي مُضمَّنة.

المصادر

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.