العودة إلى المدونةتقني

فجوة الامتثال في الشرق الأوسط: لماذا تعتبر المعلومات...

لا تنتهي GDPR عند البوسفور. المعلومات الشخصية العربية والعبرية في سير العمل التجارية في الاتحاد الأوروبي غير محمية بشكل منهجي.

April 1, 20268 دقيقة قراءة
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

فجوة الامتثال من اليمين لليسار

تقدم العربية والعبرية فشلًا منهجيًا في الكشف عن المعلومات الشخصية للمنظمات التي تستخدم أدوات تم بناؤها أساسًا للغات ذات الكتابة من اليسار إلى اليمين. المشكلة ليست مجرد اتجاه. تتطلب النصوص المكتوبة من اليمين لليسار تقسيمًا مختلفًا، ومنطق تقسيم مختلف، وكشف حدود كيان مختلف عن الأساليب من اليسار إلى اليمين. تطبق أنظمة التعرف على الكيانات القياسية المدربة على بيانات اللغة الإنجليزية افتراضات تقسيم من اليسار إلى اليمين تنتج حدود كيان غير صحيحة في النصوص العربية والعبرية.

بعيدًا عن الاتجاه، تضيف الصرف العربي تحديًا أعمق. تستخدم العربية نظامًا قائمًا على الجذر حيث يمكن لجذر واحد أن ينتج العشرات من الأشكال السطحية من خلال البادئات واللواحق. يمكن أن يظهر اسم شخص — محمد — كـ "محمد"، "المحمد"، "بن محمد"، "محمد الرشيد"، أو عدة أشكال مصرفة اعتمادًا على السياق النحوي. لا يمكن أن تلتقط أنماط Regex المصممة لأشكال الأسماء الغربية هذا التنوع الصرفي. سيفوت نموذج التعلم الآلي المدرب أساسًا على بيانات اللغة الإنجليزية الأشكال السطحية البديلة.

لا تعترف GDPR باللغة كحدود امتثال. يجب على شركة في الاتحاد الأوروبي تعالج مراسلات العملاء باللغة العربية من عملاء MENA تطبيق نفس معايير حماية البيانات كما هو الحال مع المراسلات باللغة الفرنسية. إن الفشل الفني في الكشف عن المعلومات الشخصية العربية هو فشل في الامتثال القانوني بموجب المادة 32 من GDPR.

حالة استخدام KYC

توضح شركة التكنولوجيا المالية في دبي التي تعالج مستندات KYC (اعرف عميلك) للعملاء في الاتحاد الأوروبي النمط. تحتوي مستندات KYC للعملاء العرب على أسماء العملاء باللغة العربية، وأرقام هوية الإمارات (بتنسيق 15 رقمًا)، وعناوين مكتوبة بالعربية جنبًا إلى جنب مع المراسلات التجارية باللغة الإنجليزية.

يتضمن تنسيق هوية الإمارات — 784-XXXX-XXXXXXX-X — هيكلًا محددًا: رمز الدولة 784، سنة الميلاد، تسلسل مكون من سبعة أرقام، رقم تحقق. لا تستطيع أدوات المعلومات الشخصية الغربية التي تفتقر إلى تعريفات الكيانات الخاصة بالإمارات الكشف عن هذا التنسيق للمعرفات على الإطلاق. يتم معالجة حقول الأسماء العربية بواسطة NER المكتوب باللاتينية مما ينتج عنه تقسيم غير صحيح. النتيجة: عدم رؤية منهجية للمعلومات الشخصية في سير عمل الامتثال لـ KYC.

بالنسبة للمنظمات التي تخضع لالتزامات GDPR التي تغطي هذه البيانات، فإن الفجوة التقنية تخلق تعرضًا تنظيميًا مباشرًا. تتطلب المادة 32 من GDPR "إجراءات تقنية وتنظيمية مناسبة" — نظام لا يمكنه الكشف عن المعرفات في 22% من لغات العالم ليس إجراءً تقنيًا مناسبًا.

الوثائق العبرية والمختلطة

تقدم العبرية تحديات ذات صلة. تُكتب الأبجدية العبرية من اليمين لليسار؛ تحتوي أرقام الهوية الإسرائيلية على خوارزمية تحقق محددة (رقم تحقق شبيه بـ Luhn لأرقام الهوية الإسرائيلية المكونة من 9 أرقام). قد تشمل الوثائق القانونية الإسرائيلية نصوصًا بالعبرية، ونصوصًا بالعربية، ونصوصًا باللغة الإنجليزية في نفس الوثيقة — خصوصًا في العقود التجارية حيث تكون العبرية هي اللغة الأساسية، وتُدرج شروط الخدمة باللغة الإنجليزية بالرجوع، وتستخدم العربية للأطراف الناطقة بالعربية.

تتطلب الوثائق المختلطة التي تحتوي على نصوص متعددة في نفس كتلة النص كشف النص قبل التعرف على الكيانات. بدون كشف النص، قد يؤدي تمرير NER واحد إلى تطبيق تقسيم نصوص لاتيني على النصوص السامية، مما ينتج عنه تقسيم غير صحيح تمامًا.

بحث نُشر في تقارير Nature Scientific (2025) درس أداء NER متعدد اللغات بشكل خاص للكشف عن المعلومات الشخصية العربية، ووجد درجات F1 تتراوح بين 0.60–0.83 للنماذج القياسية مقابل 0.88+ لأساليب متعددة اللغات مصممة خصيصًا (XLM-RoBERTa المعدل على بيانات NER العربية).

متطلبات الهيكلية متعددة اللغات

يتطلب الكشف الفعال عن المعلومات الشخصية العربية والعبرية ثلاثة مكونات تفتقر إليها الأدوات التي تركز على الغرب عادةً:

معالجة النصوص من اليمين لليسار: الامتثال لخوارزمية Unicode ثنائية الاتجاه من أجل عرض تدفق النص بشكل صحيح، وتقسيم نصوص مدرك للاتجاه يحترم حدود الكلمات في النصوص المكتوبة من اليمين لليسار.

NER مدرك للصرف: إما محلل صرفي (Farasa للعربية، أو ما يعادلها) أو نموذج تحويل تم ضبطه على بيانات NER العربية/العبرية التي تعلمت التنوع الصرفي.

تعريفات الكيانات الخاصة بالمنطقة: تتطلب هوية الإمارات، هوية إسرائيلية، هوية وطنية سعودية، هوية وطنية مصرية، وأشكال معرفات أخرى خاصة بـ MENA تعريفات نوع كيان صريحة مع مواصفات التنسيق.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.