اكتشاف PII متعدد اللغات للامتثال لـ GDPR
محدَّث لعام 2026
الفجوة الخفية في GDPR
لا يُفضّل GDPR أي لغة. تُعرّف المادة 4(1) "البيانات الشخصية" دون تسمية اللغة التي تظهر فيها. رقم Steuer-ID الألماني محمي بنفس قدر حماية رقم الضمان الاجتماعي الأمريكي. رقم NIR الفرنسي خاضع للتنظيم بنفس قدر خضوع رقم التأمين الوطني البريطاني.
معظم أدوات اكتشاف PII بُنيت للإنجليزية فقط.
وجد بحث من ACL 2024 أن أدوات NLP الهجينة تحقق درجات F1 تتراوح بين 0.60 و0.83 للموقعيات الأوروبية. الأدوات الإنجليزية فقط تسجّل قريباً من الصفر لتنسيقات معرّفات وطنية غير إنجليزية. الفجوة صارخة. أداة ما قد تلتقط 95% من PII الإنجليزية. لكنها تفوّت 40–60% من PII الألمانية أو الفرنسية أو البولندية أو الهولندية في الملف ذاته. هذه مشكلة خطيرة. تُعرّض الشركات للخطر.
هذه فجوة GDPR حقيقية. تؤثر على كل شركة عالمية تقريباً تستخدم أدوات حجب تمركزت على الإنجليزية. اطّلع على دليل GDPR لمزيد من المعلومات.
لماذا PII خاص بالموقع
اكتشاف PII يتضمن جزأين.
الأول هو المسح القائم على الأنماط. يغطّي المعرّفات المنظَّمة مثل أرقام الضرائب وتنسيقات الهاتف.
الثاني هو المسح القائم على التعرف على الكيانات. يغطّي الكيانات السياقية مثل الأسماء والعناوين.
كلا الجزأين يعتمدان على الموقع.
المعرّفات المنظَّمة تختلف حسب الدولة
| الدولة | معرّف الضريبة | التنسيق | التحقق |
|---|---|---|---|
| ألمانيا | Steuer-ID | 11 رقماً | Modulo-11 |
| فرنسا | NIR | 15 رقماً + مفتاح رقمين | INSEE |
| السويد | Personnummer | 10 أرقام | Luhn |
| بولندا | PESEL | 11 رقماً | Modulo-10 |
| هولندا | BSN | 9 أرقام | Elfproef |
| إسبانيا | DNI/NIE | 8 أرقام + حرف | Modulo-23 |
| إيطاليا | Codice Fiscale | 16 حرفاً | مجموع تحقق مخصص |
Regex إنجليزية لأرقام SSN (NNN-NN-NNNN) لن تطابق أياً من هذه التنسيقات. كل منها يحتاج regex خاصه. كل منها يحتاج أيضاً منطق مجموع تحقق خاصه.
التعرف على الكيانات يحتاج نماذج أصلية
الأسماء الألمانية تختلف عن الإنجليزية. "Hans-Dieter Müller" واضح لنموذج ألماني أصلي. النموذج المدرَّب على الإنجليزية غالباً ما يفوّت مثل هذه الأسماء.
الإيجابيات الكاذبة مشكلة أيضاً. يُظهر متتبع مشكلات Microsoft Presidio كلمات ألمانية تُصنَّف بشكل خاطئ كـPII إنجليزية. كلمة "Null" (صفر بالألمانية) مثال على ذلك. تُطلق نتائج أسماء كاذبة في النماذج المدرَّبة على الإنجليزية. في الاستخدام الإنتاجي، معدلات الخطأ ترتفع إلى 3 إيجابيات كاذبة لكل كيان حقيقي (Alvaro et al., 2024).
المخاطر التنظيمية
الجهات الأوروبية لحماية البيانات تدرك هذه المشكلة. أصدرت عدة هيئات حماية بيانات وطنية توجيهات.
BfDI الألماني: تنطبق المادة 5(1)(f) من GDPR على جميع السجلات. تغطّي البيانات غير الإنجليزية التي تُعالجها أدوات طرف ثالث.
CNIL الفرنسية: أشار التقرير السنوي لـ CNIL لعام 2024 إلى مخاوف. سلّط الضوء على أدوات الذكاء الاصطناعي التي تتعامل مع السجلات الفرنسية بدون مسح PII بالموقع الفرنسي.
هيئات حماية البيانات الأوروبية عموماً: تتطلب المادة 25 من GDPR (الخصوصية بالتصميم) ضمانات مناسبة للسجلات الفعلية التي تتم معالجتها. يشمل ذلك PII غير الإنجليزية في عمليات النشر العالمية.
المخاطرة واضحة. قد تُظهر شركة ما اكتشاف 95% لـPII على المحتوى الإنجليزي في تدقيق GDPR. لكن إذا كانت تتعامل أيضاً مع سجلات ألمانية وفرنسية وبولندية بالأداة ذاتها، ستظهر الفجوات. المدققون يلاحظون. قد تتبع الغرامات. اطّلع على صفحة الضمانات لدينا لمعرفة كيف نعالج هذا.
التصميم ثلاثي الطبقات
يتفق البحث والاستخدام الإنتاجي على تصميم هجين ثلاثي الطبقات كأفضل نهج.
الطبقة 1: نماذج spaCy الأصلية
توفّر spaCy نماذج مدرَّبة لـ 25 موقعاً. تشمل الألمانية والفرنسية والإسبانية والبرتغالية والإيطالية والهولندية والروسية والصينية واليابانية والكورية والبولندية. كل نموذج يتدرب على نصوص أصلية. تتعلم بنية وأنماط كيانات كل موقع. هذا مهم. التدريب الأصلي يعني استدعاءً أفضل وإيجابيات كاذبة أقل.
للألمانية: يتعامل de_core_news_lg مع الكلمات المركبة وأنماط الأسماء الألمانية.
للفرنسية: يتعامل fr_core_news_lg مع الكيانات الفرنسية والألقاب وأسماء الأماكن والمنظمات.
النماذج الأصلية تتفوق على النماذج متعددة اللغات في مسح الأسماء للمواقع عالية الموارد.
الطبقة 2: Stanza لمزيد من المواقع
تغطّي مكتبة Stanza من Stanford المواقع غير الموجودة في spaCy. تشمل الكرواتية والسلوفينية والأوكرانية. هذا يُضيف نطاقاً لمجموعات المتحدثين الأوروبيين التي لا تخدمها spaCy. Stanza مجانية ومفتوحة المصدر. تتكامل جيداً مع بقية المكدّس.
الطبقة 3: XLM-RoBERTa للنطاق الواسع
للمواقع التي تفتقر فيها spaCy وStanza لنماذج التعرف على الكيانات، يسد XLM-RoBERTa الفجوة. يتدرب على نصوص Common Crawl عبر 100 موقع. يحقق 91.4% درجة F1 متعددة اللغات لاكتشاف PII (HuggingFace 2024). يتعامل جيداً مع التحويل بين الرموز. هذه ميزة رئيسية. تهم عندما يحتوي مستند واحد على نص بمواقع متعددة في آن واحد.
aطّلع على وثائق نظام الرموز لترى كيف تتوسع استدعاءات API مع الحجم متعدد اللغات.
أنواع الكيانات الخاصة بالموقع
النماذج وحدها لا تكفي. يتطلب التوافق مع GDPR أيضاً نطاق نوع الكيان للمعرّفات الوطنية الخاصة بكل دولة.
معرّفات وطنية أوروبية حسب الدولة:
- DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
- FR: NIR، SIREN، SIRET
- PL: PESEL، NIP، REGON
- NL: BSN
- SE: Personnummer، Samordningsnummer
- ES: DNI، NIE، NIF، CIF
- IT: Codice Fiscale، Partita IVA
تنسيقات الهاتف: لكل دولة أوروبية بنى بادئات فريدة. كل من +49 و+33 و+48 يحتاج منطق تحقق خاصه.
تنسيقات العناوين: الرموز البريدية تتباين كثيراً. الرمز الألماني PLZ يستخدم 5 أرقام. الرموز الفرنسية تستخدم 5 أرقام (نطاق 01–99). الرموز البريدية البريطانية أبجدية رقمية. الرموز الإسبانية تستخدم 5 أرقام (01000–52999).
حالة واقعية: شركة أدوية سويسرية
تعالج شركة سويسرية عقود عمل. كل عقد يمزج نصوصاً ألمانية وفرنسية وإنجليزية. سويسرا لديها أربع لغات رسمية. كانت أداتهم مُعدَّة للألمانية فقط. فاتتها جميع بيانات PII في الأقسام الفرنسية.
تضمّن عقد موظف مقيم في جنيف رقم AVS فرنسياً (13 رقماً) وIBAN بنك سويسري واسماً بتنسيق فرنسي. فاتت الأداة الألمانية فقط الاسم بالتنسيق الفرنسي. فشلت في إيجاد رقم AVS الفرنسي. اكتشفت IBAN جزئياً فقط.
النهج ثلاثي الطبقات يعالج المستند بأكمله. يكتشف الموقع لكل مقطع نصي. يطبّق نموذج التعرف على الكيانات الصحيح لكل جزء. يتحقق من كل معرّف وطني بمنطق الدولة الصحيح.
المستندات متعددة المواقع
الحالة الأصعب هي مزج المواقع داخل المستند. أمثلة:
- عقد إنجليزي لشركة ألمانية مع سجلات موظفين ألمانية (أسماء، معرّفات ضريبية)
- نموذج موافقة GDPR فرنسي مع مقطع خصوصية إنجليزي
- محادثة حيث يرد الوكيل بالإنجليزية ويكتب العميل بالعربية
يتعامل XLM-RoBERTa مع هذا بشكل أصلي. لا يحتاج علامات موقع صريحة. يعالج النص متعدد المواقع بدون تقسيم مسبق. هذا يوفّر الوقت. ويتجنب أيضاً الأخطاء الناجمة عن التقسيمات الخاطئة.
للاستخدام الإنتاجي، يُعطي الجمع بين الاكتشاف التلقائي للموقع (على مستوى الجملة) واستنتاج XLM-RoBERTa معالجة قوية للمستندات متعددة المواقع.
خطوات عملية
دقّق نطاق أداتك. اسأل مورّد الحجب الخاص بك عن درجات F1 لمواقعك المحددة. "تدعم 20 لغة" غالباً ما يعني أن الأداة توجّه النص عبر الترجمة الآلية أولاً. هذا ليس مسحاً أصلياً.
رسّم سجلاتك على المواقع. أجرِ جرداً للسجلات يشمل توزيع المواقع. شركة عالمية تمتلك 70% إنجليزية و20% ألمانية و10% فرنسية تواجه مخاطر مختلفة. شركة بـ 95% إنجليزية في وضع مختلف.
اختبر بعيّنات المعرّفات الوطنية. ابنِ مجموعة اختبار بـ 10 أمثلة للمعرّفات الوطنية في عملياتك — Steuer-ID وNIR وPESEL وBSN وغيرها. تحقق من معدلات الاكتشاف. هذا أسرع من اختبار F1 كامل.
راجع DPIAs الخاصة بك. تحقق إذا كان نطاق الموقع مُدرَجاً. DPIA ناقصة تفترض سجلات إنجليزية فقط قد تحتاج تحديثاً. تصرّف الآن. لا تنتظر تدقيقاً ليكتشف الفجوة.
لتعريفات نوع الكيان الكاملة، اطّلع على مرجع الكيانات والأسئلة الشائعة. للخطط ومعدلات استدعاء API، زر الأسعار.
محرك اكتشاف PII في anonym.legal يستخدم نهجاً متعدد اللغات ثلاثي الطبقات. يغطّي 25 موقعاً عالي الموارد عبر نماذج spaCy الأصلية. تُضيف Stanza نطاقاً موقعياً إضافياً. تمتد محوّلات XLM-RoBERTa متعددة اللغات النطاق إلى 48 موقعاً. أنواع الكيانات الخاصة بالدولة لجميع الدول الأعضاء في الاتحاد الأوروبي مُضمَّنة.