GDPR لا تفضل لغة معينة
تنطبق اللائحة العامة لحماية البيانات على البيانات الشخصية باللغات الألمانية والفرنسية والبولندية والسويدية والإسبانية والإيطالية وجميع اللغات الأخرى التي تعالجها المنظمات الخاضعة للائحة. إن فقدان معرف في بيانات العملاء الألمان يخلق نفس التعرض التنظيمي مثل فقدان معرف في بيانات العملاء الناطقين باللغة الإنجليزية. لا تميز GDPR بين اللغات.
معظم أدوات اكتشاف المعلومات الشخصية تفعل ذلك.
تم بناء أدوات اكتشاف المعلومات الشخصية التجارية والمفتوحة المصدر الرائدة وتمت معاييرها بشكل أساسي على النصوص الإنجليزية. تعكس أدوات التعرف على الكيانات ذلك: أرقام الضمان الاجتماعي الأمريكية، رخص القيادة الأمريكية، تنسيقات جوازات السفر الأمريكية، والمعرفات العالمية الشائعة (عناوين البريد الإلكتروني، أرقام الهواتف بتنسيق NANP، أرقام بطاقات الائتمان). غالبًا ما تكون أدوات التعرف على المعرفات الوطنية غير الإنجليزية - عندما توجد - أقل دقة، وأقل صيانة، وأكثر عرضة لإنتاج نتائج سلبية خاطئة.
بالنسبة للمؤسسات التي تعمل عبر دول الأعضاء في الاتحاد الأوروبي، فإن ذلك يخلق فجوة امتثال منهجية: الأداة تقرر أنه تم اكتشاف المعلومات الشخصية وإزالتها، ولكن المعرفات غير الإنجليزية التي تمثل أكبر تعرض لـ GDPR في بعض الولايات القضائية تبقى في البيانات.
الفرق الهيكلي بين المعرفات الوطنية
الفجوة بين الأدوات التي تركز على اللغة الإنجليزية والأدوات متعددة اللغات حقًا ليست مجرد مسألة إضافة المزيد من أنماط regex. تنسيقات المعرفات الوطنية عبر دول الأعضاء في الاتحاد الأوروبي متميزة هيكليًا بطرق تتطلب معرفة خاصة بالولاية القضائية لاكتشافها بشكل صحيح.
رقم Steuer-Identifikationsnummer (Steuer-ID) الألماني: معرف ضريبي مكون من 11 رقمًا مع خوارزمية تحقق محددة تعتمد على متغير صيغة Luhn. لن يتطابق تعبير regex عام مع هذا التنسيق. سيؤدي تعبير regex الذي يتطابق مع أي رقم مكون من 11 رقمًا إلى إنتاج معدلات إيجابية خاطئة هائلة في الوثائق المالية الألمانية.
رقم NIR الفرنسي (Numéro d'inscription au répertoire): معرف مكون من 15 رقمًا يتضمن جنس حامل الرقم، سنة الميلاد، شهر الميلاد، رمز القسم أو الدولة، رقم ترتيب الميلاد، ورمز تحكم مكون من رقمين. يتطلب الاكتشاف فهم الهيكل والتحقق من رمز التحكم.
رقم Personnummer السويدي: معرف مكون من 10 أرقام (أحيانًا مع مؤشر القرن مما يجعله 12 رقمًا) مع رقم تحقق Luhn. يختلف التنسيق حسب العمر: الأفراد المولودون قبل عام 1990 يستخدمون فاصل + بدلاً من -، مما يغير التنسيق الذي يجب اكتشافه.
رقم PESEL البولندي: معرف مكون من 11 رقمًا يشفر تاريخ الميلاد والجنس ورقم تحقق يعتمد على خوارزمية مجموع مرجح. يتطلب الاكتشاف الصحيح كل من مطابقة التنسيق والتحقق من رمز التحقق.
هذه ليست مجرد تنويعات تنسيقية على نمط مشترك. إنها معرفات متميزة هيكليًا بأطوال مختلفة، وخوارزميات تحقق مختلفة، وأنظمة ترميز موضعية مختلفة. لن يتعرف نموذج NER المدرب باللغة الإنجليزية الذي يصادف رقم NIR الفرنسي في النص على أنه معرف وطني - إما أنه سيتجاهله أو، إذا تطابق مع نمط آخر، سيصنفه بشكل خاطئ.
العواقب العملية للامتثال
بالنسبة لموظف الامتثال في BPO الأوروبي الذي يعالج بيانات خدمة العملاء من ألمانيا وفرنسا وبولندا وهولندا في نفس الوقت، فإن العواقب العملية هي فجوة منهجية في اكتشاف سجلات العملاء غير الإنجليزية.
تبلغ أداة موظف الامتثال عن نجاح إخفاء المعلومات الشخصية. لا تزال البيانات المجهولة تحتوي على Steuer-IDs في السجلات الألمانية، وأرقام NIR في السجلات الفرنسية، وأرقام PESEL في السجلات البولندية - لأن أدوات التعرف على هذه التنسيقات إما غائبة أو غير دقيقة بشكل كاف.
عندما تُستخدم مجموعة البيانات المجهولة لاحقًا للتحليلات أو الاختبارات، أو تُشارك مع شريك بحث، لا تزال البيانات "المجهولة" تحتوي على بيانات معرف وطنية يمكن إعادة التعرف عليها. لا يظهر انتهاك GDPR في سجلات إخراج الأداة. يصبح مرئيًا عندما يكشف طلب وصول موضوع البيانات، أو تدقيق سلطة إشرافية، أو خرق بيانات أن المعرفات غير الإنجليزية لم تتم إزالتها.
أظهرت الأبحاث التي تقارن الأساليب الهجينة متعددة اللغات لاكتشاف المعلومات الشخصية ضد الأدوات الأحادية اللغة التي تركز على الإنجليزية أن الأساليب الهجينة تحقق درجات F1 من 0.60 إلى 0.83 عبر المواقع الأوروبية - مقارنة بأداء قريب من الصفر من الأدوات التي تركز على الإنجليزية المطبقة على تنسيقات المعرفات غير الإنجليزية.
ما تتطلبه التغطية الشاملة
يتطلب الاكتشاف الحقيقي للمعلومات الشخصية متعددة اللغات للامتثال لـ GDPR في الاتحاد الأوروبي ثلاث طبقات معمارية تعمل معًا:
نماذج spaCy الأصلية للغة توفر فهمًا دلاليًا للأسماء والمنظمات والمواقع بلغة النص. يفهم نموذج spaCy المدرب على النصوص الألمانية أن "Müller" هو اسم عائلة شائع في السياق الألماني - وليس مجرد كلمة مكتوبة بحرف كبير. توجد نماذج لـ 25 لغة عالية الموارد في الاتحاد الأوروبي.
نماذج Stanza NLP توسع التغطية لتشمل لغات إضافية غير مغطاة بواسطة spaCy بنفس مستوى الدقة.
نماذج المحولات متعددة اللغات (XLM-RoBERTa) تتعامل مع الغموض عبر اللغات الذي لا يمكن لمطابقة الأنماط البحتة معالجته - معترفة بأن اسمًا يظهر في جملة فرنسية هو اسم شخص حتى لو لم يكن محرك الكشف قد تم تدريبه بشكل خاص على ذلك الاسم.
تعبيرات regex مع تحقق خاص بالولاية القضائية تغطي المعرفات الوطنية الهيكلية - Steuer-ID وNIR وPESEL وPersonnummer - مع تحقق من رمز التحقق الذي يقضي على الإيجابيات الخاطئة.
بالنسبة لموظف الامتثال الذي تفوت أداةه حاليًا المعرفات غير الإنجليزية: الفجوة هي هيكلية، وليست تكوين. إن إضافة قوائم الكلمات أو توسيع تغطية regex يوفر تحسينًا هامشيًا. يتطلب الامتثال الشامل لـ GDPR في الاتحاد الأوروبي للبيانات متعددة اللغات أداة تم بناؤها مع تغطية المعرفات الأوروبية كمتطلب تصميم، وليس كفكرة لاحقة.
المصادر: