الفجوة الامتثالية في النصوص من اليمين إلى اليسار
لا تتوقف اللائحة الأوروبية لحماية البيانات (GDPR) عند حدود البوسفور. تعاني الشركات الأوروبية التي تعتمد على أدوات مبنية للغات اللاتينية من نقطة عمياء حقيقية يُتجاهل شأنها إلى حد بعيد.
المشكلة لا تقتصر على اتجاه النص. تستلزم النصوص المكتوبة من اليمين إلى اليسار تحليلًا صرفيًا مختلفًا وتجزئةً مختلفة، إذ تسير حدود الكيانات بطريقة مغايرة لتلك المعتادة في النصوص اليسارية. تعتمد أنظمة التعرف على الكيانات المسماة (NER) المُدرَّبة على اللغة الإنجليزية قواعد النصوص اليسارية، وهذه القواعد تنهار عند تطبيقها على النصوص اليمينية فتُنتج حدود كيانات خاطئة.
تزيد الصرافة العربية الأمر تعقيدًا. تعتمد اللغة العربية على جذور تشتق منها عشرات الصيغ الكلمية. فاسم كـ“محمد” يمكن أن يظهر في صور متعددة: “آل محمد” أو “بن محمد” أو “محمد الرشيد”. تفوت أنماط التعبير النمطي (regex) المصممة للأسماء الغربية هذه الصيغ، وكذلك النماذج المُدرَّبة على اللغة الإنجليزية.
لا تعترف اللائحة الأوروبية لحماية البيانات باللغة حدًا للامتثال. فالشركة الأوروبية التي تعالج مراسلات عملائها من منطقة الشرق الأوسط وشمال أفريقيا تخضع للقواعد ذاتها المطبَّقة على المراسلات الفرنسية. إن إغفال البيانات الشخصية في النصوص اليمينية يُشكّل إخفاقًا قانونيًا بموجب المادة 32 من اللائحة الأوروبية لحماية البيانات.
حالة الاستخدام: التحقق من هوية العملاء (KYC)
توضح شركة تقنية مالية دُبَيّة تعالج وثائق KYC لعملاء أوروبيين هذه المشكلة بجلاء.
تحتوي ملفات KYC للعملاء العرب على أسماء بالخط العربي وأرقام هويات الإمارات وعناوين مكتوبة من اليمين إلى اليسار، جنبًا إلى جنب مع نص أعمال إنجليزي.
تتبع بطاقة الهوية الإماراتية الصيغة: 784-XXXX-XXXXXXX-X، وتشمل رمز الدولة 784 وسنة الميلاد وسبعة أرقام ورقم تحقق. أدوات البيانات الشخصية الغربية التي لا تمتلك تعريفات لكيانات دولة الإمارات العربية المتحدة عاجزة عن اكتشاف هذا التنسيق. تمر حقول الأسماء عبر أنظمة التعرف على الكيانات المسماة المُصممة للنصوص اللاتينية بتجزئة خاطئة، مما يجعل البيانات الشخصية غير مرئية في سير العمل.
بالنسبة للشركات المُلزَمة بحماية هذه البيانات وفق اللائحة الأوروبية لحماية البيانات، تُولّد هذه الفجوة مخاطر قانونية حقيقية. تشترط المادة 32 من اللائحة اتخاذ تدابير تقنية ملائمة، وأداةٌ تفوّتها 22% من لغات العالم لا تُعدّ تدبيرًا ملائمًا.
العبرية والوثائق المتعددة اللغات
تطرح العبرية إشكاليات مماثلة. تُكتب من اليمين إلى اليسار، وتعتمد أرقام الهوية الإسرائيلية خوارزمية تحقق تشبه خوارزمية Luhn المطبَّقة على تسعة أرقام.
كثيرًا ما تمزج الوثائق القانونية الإسرائيلية بين العبرية والنصوص ذات الخط العربي والإنجليزية في ملف واحد، كما هو الحال في العقود التي تتخذ من العبرية لغةً رئيسية مع إضافة مصطلحات إنجليزية بالإحالة.
تستلزم الملفات متعددة الخطوط كشف الخط قبل تطبيق التعرف على الكيانات المسماة. بدونه، تُطبَّق تمريرة واحدة من التعرف على الكيانات قواعد النصوص اللاتينية على النصوص اليمينية، مما ينتج عنه نتائج خاطئة.
اختبرت دراسة نشرتها مجلة Nature Scientific Reports عام 2025 التعرف على الكيانات المسماة عبر اللغات في البيانات الشخصية للنصوص اليمينية. سجّلت النماذج المعيارية درجات F1 تراوحت بين 0.60 و0.83، في حين سجّل نموذج XLM-RoBERTa المُضبَّط على بيانات التعرف على الكيانات في النصوص اليمينية درجات 0.88 وما فوق.
متطلبات البنية متعددة اللغات
يستلزم الكشف الفعّال عن البيانات الشخصية في النصوص اليمينية ثلاثة عناصر كثيرًا ما تفتقر إليها الأدوات المُصممة أساسًا للغات الغربية.
معالجة النصوص من اليمين إلى اليسار: الامتثال لمعيار Unicode ثنائي الاتجاه لضمان التدفق الصحيح للنص، وتحليل صرفي يراعي الاتجاه الأيمن يتعرف على حدود الكلمات في النصوص اليمينية.
التعرف على الكيانات المسماة بوعي صرفي: محلل صرفي كـFarasa للعربية، أو نموذج تحويل (transformer) مُضبَّط على بيانات التعرف على الكيانات في النصوص اليمينية، مع ضرورة أن يكون النموذج قد تعلّم التنوعات الصرفية.
أنواع كيانات خاصة بالمنطقة: تستلزم هويات الإمارات وإسرائيل والمملكة العربية السعودية ومصر تعريفات صريحة بقواعد التنسيق الخاصة بكل منها. الأدوات الغربية العامة لا تمتلك هذه التعريفات.
اطلع على كيفية تعامل خط أنابيب التعرف على الكيانات المسماة متعدد اللغات لدينا مع كشف الخط عبر 48 لغة. للاطلاع على القائمة الكاملة لأنواع المعرفات في منطقة الشرق الأوسط وشمال أفريقيا المدعومة، تفضل بزيارة كتالوج الكيانات. يشرح دليل الامتثال للائحة الأوروبية لحماية البيانات كيف تُنشئ فجوات الكشف تعرضًا قانونيًا بموجب المادة 32.