فجوة اللغة في مراكز عمليات الأعمال
تتعامل فرق الدعم في منطقة آسيا والمحيط الهادئ مع محادثات بنصوص متعددة. يكتب المستخدمون التايلانديون بالنص التايلاندي. والمستخدمون الإندونيسيون بالبهاسا الإندونيسية. والمستخدمون الفيتناميون بالفيتنامية.
تحتوي سجلات تلك المحادثات على بيانات شخصية (PII): أسماء وأرقام هواتف وعناوين وأرقام هوية — جميعها بالنصوص المحلية.
تُخفق الأدوات أحادية اللغة هنا. نماذجها مدرّبة على نصوص غربية. تعلّمت أجهزة الكشف عن الأسماء أشكال الأسماء بالنص اللاتيني. وتعلّمت نماذج العناوين تخطيطات العناوين الغربية.
النص التايلاندي غير مرئي لنموذج أحادي اللغة. العنوان الإندونيسي لا يطابق أنماط النص اللاتيني. والنص الفيتنامي ذو النبرات يُضيف طبقة إضافية من التعارض. النتيجة: شبه انعدام لاكتشاف PII في سجلات غير لاتينية النص.
معظم محادثات منطقة آسيا والمحيط الهادئ ليست بالإنجليزية. هذه ليست فجوة هامشية. بالنسبة لمراكز عمليات الأعمال الكبيرة، هي القاعدة.
التداعيات القانونية في منطقة آسيا والمحيط الهادئ
ثلاثة قوانين لحماية البيانات تُغطي هذه المناطق الآن. كلها نافذة. وكلها تسري على شركات مراكز عمليات الأعمال التي تتعامل مع بيانات عملاء المنطقة.
قانون حماية البيانات الشخصية التايلاندي (PDPA): سارٍ منذ عام 2022. يشترط تقليص البيانات والموافقة وضوابط الأمن. تقع سجلات المحادثات التي تتضمن أسماء تايلاندية ضمن نطاقه.
قانون حماية البيانات الشخصية الإندونيسي (PDPLaw): يشمل جميع الشركات التي تعالج بيانات المقيمين. ويشترط تدابير أمنية للسجلات الشخصية.
مرسوم حماية البيانات الشخصية الفيتنامي (PDPD): يسري مرسوم فيتنام لعام 2023 على أي شركة تتعامل مع بيانات المقيمين الفيتناميين، بصرف النظر عن موقع الشركة.
يتشارك القوانون الثلاثة في قاعدة واحدة جوهرية: اكتشاف PII وحمايتها. وهذه القاعدة سارية بأي نص يستخدمه العميل. راجع نظرة عامة على الامتثال لمعرفة كيف تؤثر هذه القوانين على عمل مراكز عمليات الأعمال.
مشكلة المحادثات الـ 500,000
تُدير شركة تقنية مالية في سنغافورة 500,000 محادثة دعم شهرياً. تخدم عملاء عبر 12 لهجة في منطقة آسيا والمحيط الهادئ. التزامها القانوني يشمل المحادثات الـ 500,000 جميعها.
أداتها الإنجليزية فقط تُغطي الجزء الإنجليزي وحده.
لنفترض أن 30% من المحادثات بالإنجليزية وأن دقة الاكتشاف 90% هناك. هذا يحمي نحو 135,000 محادثة. أما المحادثات الـ 365,000 الأخرى فتمر دون الكشف عن أي PII تقريباً.
هذا يترك 73% من المحادثات دون حماية. المراجعة اليدوية لـ 365,000 محادثة غير ممكنة. تكاليف الموظفين وحدها تجعلها غير عملية. يجب أن تُغطي الأدوات الآلية المزيج الحقيقي من النصوص المستخدمة — لا نصاً واحداً فقط.
الاكتشاف متعدد اللغات
XLM-RoBERTa نموذج مدرّب على أكثر من 100 لغة. يتعلم أن الأسماء والأماكن والشركات تتشارك أنماطاً عبر النصوص المختلفة. ويعمل حتى حين يبدو النص الظاهر مختلفاً كلياً.
تشمل تغطية منطقة آسيا والمحيط الهادئ أربعة نصوص رئيسية:
البهاسا الإندونيسية — تكتشف الأسماء والشركات والمواقع. التايلاندية — اكتشاف PII أساسي عبر النقل متعدد اللغات. الفيتنامية — اكتشاف الكيانات مع دعم النصوص ذات النبرات. الفلبينية — تغطية لمحادثات نص التاغالوغ.
يُضيف Stanza نماذج للنصوص التي تتوفر لها نماذج خاصة. معاً يُغطيان المزيج الكامل للمنطقة. لا يستلزم أي منهما أداة منفصلة لكل نص. راجع دليل الأمن لخطوات الإعداد.
الأثر على الامتثال واضح. بدلاً من تغطية 27% من المحادثات، يُغطي الاكتشاف متعدد اللغات الكامل جميعها. تتراجع قائمة انتظار المراجعة اليدوية من مئات الآلاف إلى فحص عينات صغيرة.
لماذا يهم ذلك الآن
قانون PDPA التايلاندي وقانون PDPLaw الإندونيسي ومرسوم PDPD الفيتنامي كلها نافذة. تتوقع الجهات التنظيمية من الشركات اكتشاف PII بأي نص يستخدمه عملاؤها.
الأدوات أحادية اللغة لا ترقى إلى هذا المستوى. أما النماذج متعددة اللغات فترقى إليه. بالنسبة لمراكز عمليات الأعمال التي تخدم قاعدة عريضة من مستخدمي المنطقة، الفجوة مهمة. إنها الخط الفاصل بين المخاطرة القانونية والحماية القانونية.