العودة إلى المدونةالامتثال لـ GDPR

لماذا أداة اكتشاف المعلومات الشخصية الخاصة بك متوافقة...

تتطلب معرف Steuer-ID الألماني، وNIR الفرنسي، وPersonnummer السويدي منطق اكتشاف مختلف.

March 3, 202610 دقيقة قراءة
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

الفجوة المخفية في الامتثال لـ GDPR

لا تفضل GDPR لغة معينة. يحدد المادة 4(1) "البيانات الشخصية" دون الإشارة إلى اللغة التي تظهر بها. معرف Steuer-ID الألماني محمي مثل رقم الضمان الاجتماعي الأمريكي. NIR الفرنسي مُنظم مثل رقم التأمين الوطني البريطاني.

لكن معظم أدوات اكتشاف المعلومات الشخصية تم بناؤها للغة الإنجليزية.

أظهرت الأبحاث المنشورة في ACL 2024 أن الأساليب الهجينة في معالجة اللغة الطبيعية تحقق درجات F1 تتراوح بين 0.60-0.83 للمواقع الأوروبية - لكن الأدوات التي تقتصر على اللغة الإنجليزية عند تطبيقها على نصوص غير إنجليزية تسجل درجات قريبة من الصفر للمعرفات الوطنية المنظمة. الدلالة العملية: قد تكون أداة إخفاء الهوية المستخدمة عبر منظمة متعددة الجنسيات تكشف 95% من المعلومات الشخصية باللغة الإنجليزية بينما تفوت 40-60% من المعلومات الشخصية الألمانية أو الفرنسية أو البولندية أو الهولندية في نفس مجموعة البيانات.

هذه فجوة منهجية في الامتثال لـ GDPR تؤثر على كل منظمة متعددة الجنسيات تستخدم أدوات إخفاء الهوية التي تركز على اللغة الإنجليزية.

لماذا المعلومات الشخصية خاصة باللغة

يتكون اكتشاف المعلومات الشخصية من مكونين: اكتشاف قائم على الأنماط (معرفات منظمة مثل معرفات الضرائب، تنسيقات الهواتف) واكتشاف قائم على التعرف على الكيانات (كيانات سياقية مثل أسماء الأشخاص، أسماء المنظمات، العناوين).

كلا المكونين خاصان باللغة بشكل عميق.

تختلف المعرفات المنظمة بشكل جذري حسب البلد

البلدمعرف الضرائبالتنسيقمتطلبات الاكتشاف
ألمانياSteuer-ID11 رقمًا، خوارزمية تحققتحقق Modulo-11
فرنساNIR15 رقمًا + مفتاح مكون من رقمينتحقق خوارزمية INSEE
السويدPersonnummer10 أرقام، مؤشر القرنتحقق Luhn
بولنداPESEL11 رقمًا، تاريخ الميلاد مشفرتحقق Modulo-10
هولنداBSN9 أرقام، elfproef (تحقق 11)خوارزمية Elfproef
إسبانياDNI/NIE8 أرقام + حرفتحقق Modulo-23
إيطالياCodice Fiscale16 أبجدي رقميتحقق معقد

نمط regex باللغة الإنجليزية فقط لرقم الضمان الاجتماعي (التنسيق: NNN-NN-NNNN) لن يتطابق مع أي من هذه المعرفات. كل منها يتطلب منطق regex خاص بالبلد بالإضافة إلى تحقق من المجموع.

يتطلب التعرف على الكيانات نماذج محلية خاصة باللغة

تتبع أسماء الأشخاص في الألمانية أنماطًا مختلفة عن الأسماء الإنجليزية. "هانس-ديتر مولر" و"آنا-لينا شرايبر-كوك" يمكن التعرف عليها كأسماء ألمانية من خلال السياق - لكن نموذج تم تدريبه بشكل أساسي على نصوص باللغة الإنجليزية سيفوتها في كثير من الأحيان أو يصنفها بشكل خاطئ.

الأكثر إشكالية: الإيجابيات الكاذبة في لغة واحدة يمكن أن تصبح سلبيات كاذبة في أخرى. توثق مشكلة GitHub الخاصة بـ Microsoft Presidio الإيجابيات الكاذبة المنهجية لكلمات ألمانية يتم تصنيفها بشكل خاطئ كبيانات شخصية باللغة الإنجليزية. نفس الكلمة "Null" (الألمانية تعني "صفر") تسبب إيجابيات كاذبة في اكتشاف الأسماء في النماذج المدربة على الإنجليزية. هذا يرفع معدلات الإيجابيات الكاذبة إلى 3 أخطاء لكل كيان حقيقي في بيئات الإنتاج متعددة اللغات (Alvaro et al., 2024).

التعرض التنظيمي

تدرك سلطات حماية البيانات في الاتحاد الأوروبي بشكل متزايد هذه الفجوة. أصدرت العديد من سلطات حماية البيانات الوطنية توجيهات أو إجراءات تنفيذية تشير إلى المعالجة متعددة اللغات:

BfDI الألمانية: أوضحت أن المادة 5(1)(f) من GDPR (السلامة والسرية) تنطبق على البيانات في جميع أشكال المعالجة، بما في ذلك البيانات غير الإنجليزية المعالجة بواسطة أدوات الطرف الثالث.

CNIL الفرنسية: أشار التقرير السنوي لـ CNIL لعام 2024 إلى تزايد المخاوف بشأن أدوات الذكاء الاصطناعي التي تعالج بيانات اللغة الفرنسية دون قدرات اكتشاف المعلومات الشخصية باللغة الفرنسية.

سلطات حماية البيانات الأوروبية عمومًا: بموجب المادة 25 من GDPR (الخصوصية من خلال التصميم)، يجب أن تكون التدابير الفنية مناسبة للبيانات الفعلية المعالجة - والتي تشمل المعلومات الشخصية غير الإنجليزية في النشر متعدد الجنسيات.

المخاطر العملية: يمكن للمنظمة أن تظهر فعالية اكتشاف المعلومات الشخصية بنسبة 95% على المحتوى باللغة الإنجليزية خلال تدقيق GDPR، ولكن إذا كانت تعالج أيضًا محتوى ألماني وفرنسي وبولندي بنفس الأداة، فقد يكشف التدقيق عن فجوات منهجية لتلك اللغات.

النهج ثلاثي المستويات لاكتشاف المعلومات الشخصية متعددة اللغات

تلاقت الأبحاث الأكاديمية والنشر الإنتاجي على هيكل هجيني ثلاثي المستويات كأكثر الطرق فعالية لاكتشاف المعلومات الشخصية متعددة اللغات:

المستوى 1: نماذج spaCy المحلية (اللغات ذات الموارد العالية)

يوفر spaCy مكونات خط أنابيب مدربة لـ 25 لغة بما في ذلك الألمانية والفرنسية والإسبانية والبرتغالية والإيطالية والهولندية والروسية والصينية واليابانية والكورية والبولندية وغيرها. تم تدريب هذه النماذج على مجموعات بيانات باللغة الأصلية وتفهم التركيب والصياغة وأنماط الكيانات لكل لغة.

بالنسبة للألمانية: يفهم نموذج spaCy de_core_news_lg الأسماء المركبة، وتصريف الحالة، وأنماط الأسماء الألمانية. بالنسبة للفرنسية: يتعامل fr_core_news_lg مع أنماط الكيانات الفرنسية بما في ذلك العناوين، وأسماء الأماكن، وتنسيقات المنظمات.

تحقق النماذج المحلية دقة واسترجاع أعلى بكثير لاكتشاف الأسماء مقارنة بالنماذج متعددة اللغات المطبقة على لغات ذات موارد عالية محددة.

المستوى 2: Stanza (لغات إضافية)

توفر مكتبة Stanza من جامعة ستانفورد NER للغات إضافية غير مشمولة في عرض spaCy التجاري، بما في ذلك الكرواتية والسلوفينية والأوكرانية وغيرها. هذا يوسع التغطية لتشمل لغات ذات عدد متحدثين أصغر ولكن لا تزال كبيرة في الاتحاد الأوروبي.

المستوى 3: XLM-RoBERTa (تغطية متعددة اللغات)

بالنسبة للغات التي لا توفر فيها spaCy أو Stanza نماذج NER مدربة، يوفر XLM-RoBERTa نقلًا متعدد اللغات. تم تدريبه على بيانات Common Crawl عبر 100 لغة، ويحقق 91.4% F1 متعدد اللغات لاكتشاف المعلومات الشخصية (HuggingFace 2024)، مما يمكّن من اكتشاف معقول للغات ذات الموارد المنخفضة.

يتعامل النموذج متعدد اللغات مع تبديل الرموز (نص مختلط اللغة) بشكل جيد بشكل خاص - وهي خاصية تصبح حاسمة للمنظمات الدولية حيث قد يحتوي مستند واحد على نص بلغات متعددة.

أنواع الكيانات الخاصة باللغة

بعيدًا عن نموذج الاكتشاف، يتطلب الامتثال لـ GDPR تغطية نوع الكيان للمعرفات الخاصة بكل بلد. تحتاج الأداة متعددة اللغات إلى:

المعرفات الوطنية في الاتحاد الأوروبي:

  • DE: Steuer-ID، Sozialversicherungsnummer، Personalausweisnummer
  • FR: NIR، SIREN، SIRET، رقم الهاتف
  • PL: PESEL، NIP، REGON
  • NL: BSN، BurgerServiceNummer
  • SE: Personnummer، Samordningsnummer
  • ES: DNI، NIE، NIF، CIF
  • IT: Codice Fiscale، Partita IVA

تنسيقات أرقام الهواتف: لكل دولة في الاتحاد الأوروبي هياكل بادئات فريدة، وتنسيقات رموز المناطق، وعادات الاتصال المحلية. +49 (ألمانيا)، +33 (فرنسا)، +48 (بولندا) جميعها تتطلب تحققًا خاصًا بالبلد.

تنسيقات العناوين: تختلف تنسيقات الرموز البريدية بشكل جذري - PLZ الألمانية (5 أرقام)، الرمز البريدي الفرنسي (5 أرقام تبدأ من 01-99)، الرمز البريدي البريطاني (أبجدي رقمي، تنسيقات متعددة)، الرمز البريدي الإسباني (5 أرقام 01000-52999).

حالة الاستخدام: مستندات متعددة اللغات لشركة أدوية سويسرية

تقوم شركة أدوية سويسرية بمعالجة عقود العمل التي تحتوي على نصوص بالألمانية والفرنسية والإنجليزية ضمن نفس المستند (لدى سويسرا أربع لغات رسمية). أداتها الحالية مهيأة للألمانية وتفوت جميع المعلومات الشخصية في القسم الفرنسي.

عقد العمل لموظف مقيم في جنيف يشير إلى رقم AVS الفرنسي الخاص بهم (13 رقمًا)، ورقم حسابهم البنكي السويسري IBAN، و canton محل إقامتهم، واسمهم بالتنسيق الفرنسي. تفوت الأداة المهيأة للألمانية الاسم بالتنسيق الفرنسي، وتفشل في اكتشاف نمط رقم AVS الفرنسي (مختلف عن تنسيق AHV-Nummer الألماني)، وتكتشف فقط جزئيًا الـ IBAN.

النهج ثلاثي المستويات يعالج المستند ككل، ويكتشف اللغة تلقائيًا لكل جزء من النص، ويطبق نماذج NER المناسبة للغة، ويستخدم مدققات regex الخاصة بالبلد لكل نوع من المعرفات الوطنية - بغض النظر عن القسم اللغوي الذي يظهر فيه.

التعامل مع المستندات متعددة اللغات

أصعب مشكلة في المعلومات الشخصية متعددة اللغات هي خلط اللغات داخل المستند: مستند يحتوي على فقرات بلغات مختلفة، جمل مختلطة، أو نص مقتبس بلغة مختلفة عن السياق المحيط.

أمثلة:

  • عقد باللغة الإنجليزية لشركة ألمانية مع بيانات موظف ألماني (أسماء، معرفات ضريبية)
  • نموذج موافقة GDPR الفرنسي الذي يتضمن مقتطفًا من سياسة الخصوصية باللغة الإنجليزية
  • سجل محادثة خدمة العملاء متعددة اللغات حيث يرد الوكيل باللغة الإنجليزية لكن العميل يكتب بالعربية

يتعامل XLM-RoBERTa مع هذا بشكل محلي: يعني تدريبه متعدد اللغات أنه لا يتطلب إعلانات لغوية صريحة ويعالج النصوص المختلطة اللغة دون الحاجة إلى تقسيم.

للنشر الإنتاجي، يوفر الجمع بين اكتشاف اللغة التلقائي (المطبق على مستوى الجملة) واستنتاج XLM-RoBERTa متعدد اللغات أقوى معالجة للمستندات المختلطة اللغة.

إرشادات النشر العملية

قم بتدقيق تغطية لغات أداتك الحالية: اطلب من بائع إخفاء الهوية الحالي الخاص بك تقديم درجات F1 للغات المحددة في بياناتك. "يدعم 20 لغة" غالبًا ما يعني أن الأداة تمرر النص من خلال Google Translate قبل تطبيق NER المدرب على الإنجليزية - وهو ليس نفس اكتشاف اللغة الأصلية.

قم بتخطيط بياناتك إلى اللغات: قم بإجراء جرد للبيانات يتضمن توزيع اللغات. منظمة متعددة الجنسيات تحتوي على 70% بيانات باللغة الإنجليزية، و20% بالألمانية، و10% بالفرنسية لديها تعرض لمخاطر مختلف عن واحدة تحتوي على 95% بيانات باللغة الإنجليزية.

اختبر مع عينات من المعرفات الوطنية: أنشئ مجموعة بيانات اختبار تحتوي على 10 أمثلة لكل من المعرفات الوطنية ذات الصلة بعملياتك (Steuer-ID، NIR، PESEL، BSN، إلخ) وتحقق من معدلات الاكتشاف. هذا تدقيق أسرع من تقييم F1 على نطاق واسع.

راجع تقييمات تأثير حماية البيانات الخاصة بك: إذا كان لديك تقييمات تأثير حماية البيانات تغطي أدوات إخفاء الهوية الخاصة بك، تحقق من أن تحليل تغطية اللغة مشمول. قد تحتاج تقييمات تأثير حماية البيانات غير المكتملة التي تفترض تغطية باللغة الإنجليزية فقط إلى تحديث.


تستخدم محرك اكتشاف المعلومات الشخصية الخاص بـ anonym.legal نهجًا ثلاثي المستويات متعدد اللغات: نماذج spaCy المحلية لـ 25 لغة ذات موارد عالية، وStanza لتغطية لغات إضافية، وXLM-RoBERTa المحولات متعددة اللغات لتغطية 48 لغة بشكل عام. يتم تضمين أنواع الكيانات الخاصة بكل بلد لجميع الدول الأعضاء في الاتحاد الأوروبي.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.