NAIH مجارستان: TAJ-Szám و الزامات فنی GDPR
بروزرسانی برای ۲۰۲۶
سازمان داده مجارستان NAIH است. گزارش ۲۰۲۴ آن نشان داد که دقت NER برای زبان مجاری تنها ۶۷٪ است. میانگین اتحادیه اروپا ۸۲٪ است. این شکاف خطر واقعی ایجاد میکند. ابزارهای ساختهشده برای انگلیسی یا آلمانی شناسههای مجاری را با نرخ بالایی از دست میدهند.
چرا NER مجاری امتیاز پایین میگیرد
سه ویژگی زبان مجاری مدلهای استاندارد NLP را میشکند.
ترکیب: مجاری پسوندها را به کلمههای ریشه اضافه میکند. یک نام در یک جمله اشکال مختلفی میگیرد. «Kovács Péter» در موقعیت فاعل به «Kovács Péternek» در نقش دیگری تبدیل میشود. مدلهای NER باید همه آن اشکال را به یک شخص پیوند دهند.
ترتیب نام: مجاری نام خانوادگی را اول میگذارد. اکثر مدلهای NLP انتظار دارند نام کوچک اول باشد. این معکوس شدن باعث از دست رفتن شناساییها میشود.
کاراکترهای خاص: مجاری از ő و ű استفاده میکند. اینها با آوای umlaut آلمانی یکی نیستند. رمزگذاری ترکیبی — Windows-1250 در مقابل UTF-8 — نیز شکست ایجاد میکند.
این سه عامل بیشتر شکاف دقت را در گزارش ۲۰۲۴ NAIH توضیح میدهند.
TAJ-Szám: شماره تأمین اجتماعی مجارستان
TAJ-szám (Társadalombiztosítási Azonosító Jel) یک عدد ۹ رقمی است. در سوابق بهداشتی، حقوقی، مزایای اجتماعی، و بازنشستگی ظاهر میشود.
چکسام: ارقام ۱ تا ۸ را در وزنها ۳، ۷، ۳، ۷، ۳، ۷، ۳، ۷ ضرب کنید. نتایج را جمع بزنید. باقیمانده تقسیم بر ۱۰ را بگیرید. این رقم کنترلی را میدهد.
این الگوریتم منحصر به مجارستان است. با الگوریتم Luhn مورد استفاده در سایر کشورها یکسان نیست.
ابزارهای عمومی TAJ-szám را با دقت تنها ۶۱٪ شناسایی میکنند، طبق گزارش NAIH 2024. قالب ۹ رقمی شبیه بسیاری از اعداد دیگر در اسناد مجاری است. بدون مرحله چکسام، ابزارها مثبتهای کاذب علامتگذاری میکنند و موارد واقعی را از دست میدهند.
Adóazonosító Jel: شناسه مالیاتی مجارستان
adóazonosító jel یک شماره مالیاتی شخصی ۱۰ رقمی است. رقم اول همیشه ۸ است. در سوابق اشتغال، اظهارنامههای مالیاتی، و اسناد مالی ظاهر میشود.
چکسام: ارقام ۲ تا ۹ را بگیرید. در وزنها ۹، ۷، ۳، ۱، ۹، ۷، ۳، ۱ ضرب کنید. نتایج را جمع بزنید. باقیمانده تقسیم بر ۱۰ را بگیرید. این رقم کنترلی است. نتیجه ۰ به معنای رقم کنترلی ۰ است.
پروندههای اجرایی NAIH نشان میدهد این عدد اغلب در اسناد HR زمانی که ابزارها برای زبانهای دیگر تنظیم شدهاند از دست میرود.
برای مقایسه این اعداد در سراسر کشورهای عضو، راهنمای شماره مالیاتی ملی اتحادیه اروپا ما را ببینید.
الزام DPIA NAIH برای سیستمهای هوش مصنوعی
راهنمای ۲۰۲۴ NAIH قبل از پردازش داده شخصی توسط هر سیستم هوش مصنوعی، تکمیل DPIA را الزامی میکند. این سختگیرانهتر از آزمون کلی GDPR است. DPIA باید پوشش دهد:
- جریانهای داده — دادههای آموزشی، ورودیها، و خروجیها
- مبنای قانونی — مستند برای هر فعالیت
- دقت زبانی — الزامی برای زبانهایی زیر میانگین اتحادیه اروپا
- بررسی انسانی — روشی برای بررسی تصمیمات خودکار
DPIA باید هر سال هنگامی که سیستم بازآموزی میشود بهروز شود.
برای تیمهایی که ابزارهای هوش مصنوعی را روی دادههای مجاری مستقر میکنند، ترتیب ثابت است: اول DPIA، سپس استقرار.
حداقل کنترلهای فنی
سه کنترل پایه انطباق با NAIH را تشکیل میدهند:
- شناسایی TAJ-szám با چکسام modulo-10 — تطابق الگو به تنهایی کافی نیست
- شناسایی adóazonosító jel با اعتبارسنجی چکسام — حیاتی برای HR و امور مالی
- NER مجاری با پشتیبانی از ترکیب — باید ő، ű، و قالبهای رمزگذاری مختلف را مدیریت کند
برای مقایسه نحوه تعیین الزامات فنی توسط DPAهای اروپای مرکزی، راهنمای BFDI آلمان ما را ببینید. برای یک شکاف زبانی مشابه در اروپای مرکزی، راهنمای ÚOOÚ چک ما را ببینید.