نشرت الهيئة الوطنية المجرية لحماية البيانات وحرية المعلومات (NAIH) تقييماً تقنياً لعام 2024 يكشف أن دقة نماذج NER باللغة المجرية تبلغ 67% فقط — مقارنةً بالمتوسط الأوروبي البالغ 82% للغات الأوروبية الرئيسية. تؤثر هذه الفجوة مباشرةً على الامتثال: المنظمات التي تعالج البيانات الشخصية المجرية بأدوات NLP الألمانية أو الإنجليزية تُفوّت منهجياً المعرّفات المجرية المحددة وكيانات الأسماء.
فجوة دقة NER بـ 67%: ما تعنيه
لفجوة الدقة بين نماذج NER للمجرية واللغات الأوروبية الرئيسية أسباب لغوية هيكلية:
الصرف المجري: المجرية لغة التصاقية — تتشكل الكلمات بإلحاق اللواحق للتعبير عن العلاقات النحوية التي تعبّر عنها الإنجليزية بكلمات منفصلة. يأخذ الاسم المجري في الجملة أشكالاً نحوية مختلفة حسب دوره: "Kovács Péter" (المبتدأ)، "Kovács Péternek" (الجار والمجرور)، "Kovács Pétertől" (الابتعاد). يجب أن تتعرف نماذج NER على الاسم ذاته عبر عشرات الأشكال النحوية.
ترتيب الاسم: الأسماء المجرية تُكتب بترتيب شرقي — اللقب أولاً، الاسم الأول ثانياً (Kovács Péter، لا Péter Kovács). هذا عكس ترتيب الاسم الأوروبي الغربي. نماذج NLP المدرّبة على أنماط الاسم الإنجليزية أو الألمانية التي تفترض تقديم الاسم الأول تخفق منهجياً في التعرف على الأسماء المجرية.
مجموعة أحرف المجرية: تستخدم المجرية ő وű (حرفا العلة بالمدّة المضاعفة) إضافةً إلى ö وü. هذه الأحرف مختلفة عن الـ umlauts الألمانية وتستلزم ترميزاً/رمزنةً منفصلة. تُنشئ الوثائق ذات التناقضات في الترميز (Windows-1250 مقابل UTF-8) إخفاقات في الاكتشاف.
النتيجة: المنظمات التي تستخدم أدوات NLP الإنجليزية أو الألمانية لمعالجة سجلات الموارد البشرية أو الوثائق الطبية أو عقود العملاء المجرية تُفوّت الأسماء المجرية بمعدلات أعلى بـ 33% من تطبيق الأدوات ذاتها على النصوص الإنجليزية أو الألمانية.
TAJ-Szám: معرّف الضمان الاجتماعي المجري
رقم TAJ (Társadalombiztosítási Azonosító Jel) هو رقم الضمان الاجتماعي المجري المكوّن من 9 أرقام، المخصص لجميع المواطنين والمقيمين المجريين. يظهر في:
- تسجيل الرعاية الصحية والسجلات الطبية
- عقود التوظيف (إلزامي لكشوف الرواتب)
- تسجيل المزايا الاجتماعية
- سجلات حسابات المعاشات
المجموع التحقق: يُحسَب رقم التحقق لـ TAJ-szám باستخدام مجموع موزون: اضرب الأرقام 1-8 بأوزان متناوبة (3,7,3,7,3,7,3,7)، اجمع، خذ modulo 10. النتيجة هي رقم التحقق. هذه الخوارزمية خاصة بالمجر — ليست خوارزمية Luhn المستخدمة للـ personnummer السويدي أو SIN الكندي.
يُكتشف TAJ-szám بدقة 61% فقط من قِبَل أدوات NLP العامة (تقييم NAIH 2024). الإخفاق الأساسي: التنسيق المكوّن من 9 أرقام يطابق أرقاماً مرجعية كثيرة في الوثائق المجرية، وبدون المجموع التحقق الخاص بـ TAJ، لا تستطيع الأدوات تمييز أرقام TAJ من الإيجابيات الزائفة.
Adóazonosító Jel: رقم التعريف الضريبي الفردي المجري
adóazonosító jel هو رقم التعريف الضريبي الفردي المكوّن من 10 أرقام (لا ينبغي الخلط بينه وبين رقم الضريبة للشركات، adószám). التنسيق: 8XXXXXXXX حيث الرقم الأول دائماً 8 (ثابت)، يتبعه 9 أرقام مع رقم تحقق.
حساب رقم التحقق: اضرب الأرقام 2-9 بأوزان (9,7,3,1,9,7,3,1)، اجمع، خذ modulo 10. إن كانت النتيجة 0، فرقم التحقق هو 0. وإلا فرقم التحقق يساوي النتيجة.
يظهر adóazonosító jel في سجلات التوظيف والإقرارات الضريبية واتفاقيات المقاولين المستقلين ووثائق الخدمات المالية. وجد تطبيق NAIH أنه كثيراً ما يُفوَّت في وثائق الموارد البشرية المُعالَجة بأدوات مُعدَّة للخارج.
متطلب DPIA الصادر عن NAIH لأنظمة الذكاء الاصطناعي
تستلزم توجيهات NAIH لعام 2024 إجراء DPIA مكتملاً قبل نشر أي نظام ذكاء اصطناعي يعالج بيانات شخصية — أكثر صرامةً من النهج القائم على المخاطر في GDPR. يجب أن يتضمن DPIA:
- وصف مدخلات بيانات نموذج الذكاء الاصطناعي (بيانات التدريب، مدخلات الاستدلال) والمخرجات
- توثيق الأساس القانوني لأي معالجة للبيانات الشخصية
- تقييم دقة معالجة اللغة المجرية (تشترط NAIH تحديداً توثيق الدقة للغات الأقل من المتوسط الأوروبي)
- تضمين آلية مراجعة بشرية للقرارات الآلية
- التحديث سنوياً عند إعادة تدريب نظام الذكاء الاصطناعي
للمنظمات التي تنشر أدوات ذكاء اصطناعي تعالج بيانات الموظفين أو العملاء أو المواطنين المجريين: يخلق مجموع DPIA الإلزامي لـ NAIH وفجوة دقة NER بـ 67% التي تستلزم نماذج مجرية محددة ومتطلبات التحقق من مجموع TAJ-szám وadóazonosító jel ملفاً متميزاً للامتثال التقني.
المصادر: