هيئة NAIH المجرية: TAJ-Szám والمتطلبات التقنية وفق اللائحة العامة لحماية البيانات
محدَّث لعام 2026
هيئة حماية البيانات في المجر هي NAIH. كشف تقريرها لعام 2024 أن دقة تعرّف الكيانات باللغة المجرية لا تتجاوز 67%، في حين يبلغ المتوسط الأوروبي 82%. هذه الفجوة تُشكّل خطراً حقيقياً؛ إذ تُفوّت الأدوات المبنية للإنجليزية أو الألمانية المعرّفات المجرية بمعدلات مرتفعة.
لماذا تنخفض درجات تعرّف الكيانات في المجرية؟
ثلاث خصائص للغة المجرية تُربك نماذج معالجة اللغة الطبيعية القياسية.
الإلصاق (Agglutination): تُضيف المجرية لواحق إلى الكلمات الجذرية. يأخذ الاسم ذاته أشكالاً متعددة في الجملة. "Kovács Péter" في موضع المبتدأ تُصبح "Kovács Péternek" في موضع آخر. يجب أن تربط نماذج تعرّف الكيانات جميع هذه الأشكال بشخص واحد.
ترتيب الاسم: يضع الترتيب المجري اسم العائلة أولاً. تتوقع معظم نماذج معالجة اللغة الطبيعية الاسم الأول أولاً. هذا العكس يُسبب اكتشافات مُهمَلة.
الأحرف الخاصة: تستخدم المجرية الحرفين ő وű، وهما يختلفان عن حروف الـumlaut الألمانية. يُسبب التشفير المختلط — Windows-1250 مقابل UTF-8 — أيضاً إخفاقات.
هذه العوامل الثلاثة تُفسّر معظم فجوة الدقة في تقرير NAIH لعام 2024.
TAJ-Szám: رقم الضمان الاجتماعي المجري
TAJ-szám (Társadalombiztosítási Azonosító Jel) رقم مؤلف من 9 أرقام يظهر في سجلات الرعاية الصحية وكشوف الرواتب والمزايا الاجتماعية وسجلات التقاعد.
مجموع التحقق: تُضرب الأرقام من 1 إلى 8 بأوزان 3، 7، 3، 7، 3، 7، 3، 7. تُجمع النتائج وتُؤخذ بقية القسمة على 10 للحصول على رقم التحقق.
هذه الخوارزمية فريدة في المجر ولا تطابق خوارزمية Luhn المستخدمة في دول أخرى.
تكتشف الأدوات العامة TAJ-szám بدقة 61% فحسب وفق تقرير NAIH لعام 2024. تبدو صيغة الـ9 أرقام مشابهة لأرقام كثيرة في الوثائق المجرية. فبدون خطوة التحقق، تُعلّم الأدوات إيجابيات كاذبة وتُفوّت الأرقام الحقيقية.
Adóazonosító Jel: الرقم الضريبي الشخصي المجري
Adóazonosító jel هو رقم ضريبي شخصي مؤلف من 10 أرقام. الرقم الأول دائماً 8. يظهر في سجلات التوظيف والإقرارات الضريبية والوثائق المالية.
مجموع التحقق: تُؤخذ الأرقام من 2 إلى 9 وتُضرب بأوزان 9، 7، 3، 1، 9، 7، 3، 1. تُجمع النتائج وتُؤخذ بقية القسمة على 10 للحصول على رقم التحقق. النتيجة 0 تعني رقم التحقق هو 0.
تُظهر قضايا تطبيق NAIH أن هذا الرقم كثيراً ما يُفوَّت في وثائق الموارد البشرية عند إعداد الأدوات للغات أخرى.
راجع دليل الأرقام الضريبية الوطنية الأوروبية للاطلاع على مقارنة هذه الأرقام عبر الدول الأعضاء.
متطلب NAIH للتقييم المسبق لتأثير حماية البيانات في أنظمة الذكاء الاصطناعي
يشترط توجيه NAIH لعام 2024 إتمام تقييم تأثير حماية البيانات (DPIA) قبل معالجة أي نظام ذكاء اصطناعي للبيانات الشخصية. هذا أكثر صرامة من الاختبار العام بموجب اللائحة. يجب أن يشمل التقييم:
- تدفقات البيانات — بيانات التدريب والمدخلات والمخرجات
- الأساس القانوني — موثق لكل نشاط
- دقة اللغة — مطلوبة للغات التي تقل عن المتوسط الأوروبي
- المراجعة البشرية — آلية للتحقق من القرارات الآلية
yجب تحديث التقييم سنوياً عند إعادة تدريب النظام.
بالنسبة للفرق التي تنشر أدوات الذكاء الاصطناعي على البيانات المجرية، الترتيب ثابت: التقييم أولاً، ثم النشر.
الضوابط التقنية الدنيا
تُشكّل هذه الضوابط الثلاثة الحد الأدنى للامتثال لمتطلبات NAIH:
- اكتشاف TAJ-szám مع اختبار مجموع المودولو 10 — لا تكفي مطابقة النمط وحدها
- اكتشاف Adóazonosító jel مع التحقق من المجموع — ضروري للموارد البشرية والمالية
- تعرّف الكيانات باللغة المجرية مع دعم الإلصاق — يجب التعامل مع ő وű وأشكال الترميز المختلفة
راجع دليل BFDI الألماني للمقارنة بين كيفية وضع هيئات حماية البيانات في أوروبا الوسطى للمتطلبات التقنية. وللاطلاع على فجوة لغوية مماثلة في أوروبا الوسطى، راجع دليل ÚOOÚ التشيكي.