بروزرسانی برای ۲۰۲۶

سازمان داده مجارستان NAIH است. گزارش ۲۰۲۴ آن نشان داد که دقت NER برای زبان مجاری تنها ۶۷٪ است. میانگین اتحادیه اروپا ۸۲٪ است. این شکاف خطر واقعی ایجاد می‌کند. ابزارهای ساخته‌شده برای انگلیسی یا آلمانی شناسه‌های مجاری را با نرخ بالایی از دست می‌دهند.

چرا NER مجاری امتیاز پایین می‌گیرد

سه ویژگی زبان مجاری مدل‌های استاندارد NLP را می‌شکند.

ترکیب: مجاری پسوندها را به کلمه‌های ریشه اضافه می‌کند. یک نام در یک جمله اشکال مختلفی می‌گیرد. «Kovács Péter» در موقعیت فاعل به «Kovács Péternek» در نقش دیگری تبدیل می‌شود. مدل‌های NER باید همه آن اشکال را به یک شخص پیوند دهند.

ترتیب نام: مجاری نام خانوادگی را اول می‌گذارد. اکثر مدل‌های NLP انتظار دارند نام کوچک اول باشد. این معکوس شدن باعث از دست رفتن شناسایی‌ها می‌شود.

کاراکترهای خاص: مجاری از ő و ű استفاده می‌کند. اینها با آوای umlaut آلمانی یکی نیستند. رمزگذاری ترکیبی — Windows-1250 در مقابل UTF-8 — نیز شکست ایجاد می‌کند.

این سه عامل بیشتر شکاف دقت را در گزارش ۲۰۲۴ NAIH توضیح می‌دهند.

TAJ-Szám: شماره تأمین اجتماعی مجارستان

TAJ-szám (Társadalombiztosítási Azonosító Jel) یک عدد ۹ رقمی است. در سوابق بهداشتی، حقوقی، مزایای اجتماعی، و بازنشستگی ظاهر می‌شود.

چک‌سام: ارقام ۱ تا ۸ را در وزن‌ها ۳، ۷، ۳، ۷، ۳، ۷، ۳، ۷ ضرب کنید. نتایج را جمع بزنید. باقیمانده تقسیم بر ۱۰ را بگیرید. این رقم کنترلی را می‌دهد.

این الگوریتم منحصر به مجارستان است. با الگوریتم Luhn مورد استفاده در سایر کشورها یکسان نیست.

ابزارهای عمومی TAJ-szám را با دقت تنها ۶۱٪ شناسایی می‌کنند، طبق گزارش NAIH 2024. قالب ۹ رقمی شبیه بسیاری از اعداد دیگر در اسناد مجاری است. بدون مرحله چک‌سام، ابزارها مثبت‌های کاذب علامت‌گذاری می‌کنند و موارد واقعی را از دست می‌دهند.

Adóazonosító Jel: شناسه مالیاتی مجارستان

adóazonosító jel یک شماره مالیاتی شخصی ۱۰ رقمی است. رقم اول همیشه ۸ است. در سوابق اشتغال، اظهارنامه‌های مالیاتی، و اسناد مالی ظاهر می‌شود.

چک‌سام: ارقام ۲ تا ۹ را بگیرید. در وزن‌ها ۹، ۷، ۳، ۱، ۹، ۷، ۳، ۱ ضرب کنید. نتایج را جمع بزنید. باقیمانده تقسیم بر ۱۰ را بگیرید. این رقم کنترلی است. نتیجه ۰ به معنای رقم کنترلی ۰ است.

پرونده‌های اجرایی NAIH نشان می‌دهد این عدد اغلب در اسناد HR زمانی که ابزارها برای زبان‌های دیگر تنظیم شده‌اند از دست می‌رود.

برای مقایسه این اعداد در سراسر کشورهای عضو، راهنمای شماره مالیاتی ملی اتحادیه اروپا ما را ببینید.

الزام DPIA NAIH برای سیستم‌های هوش مصنوعی

راهنمای ۲۰۲۴ NAIH قبل از پردازش داده شخصی توسط هر سیستم هوش مصنوعی، تکمیل DPIA را الزامی می‌کند. این سخت‌گیرانه‌تر از آزمون کلی GDPR است. DPIA باید پوشش دهد:

جریان‌های داده — داده‌های آموزشی، ورودی‌ها، و خروجی‌ها
مبنای قانونی — مستند برای هر فعالیت
دقت زبانی — الزامی برای زبان‌هایی زیر میانگین اتحادیه اروپا
بررسی انسانی — روشی برای بررسی تصمیمات خودکار

DPIA باید هر سال هنگامی که سیستم بازآموزی می‌شود به‌روز شود.

برای تیم‌هایی که ابزارهای هوش مصنوعی را روی داده‌های مجاری مستقر می‌کنند، ترتیب ثابت است: اول DPIA، سپس استقرار.

حداقل کنترل‌های فنی

سه کنترل پایه انطباق با NAIH را تشکیل می‌دهند:

شناسایی TAJ-szám با چک‌سام modulo-10 — تطابق الگو به تنهایی کافی نیست
شناسایی adóazonosító jel با اعتبارسنجی چک‌سام — حیاتی برای HR و امور مالی
NER مجاری با پشتیبانی از ترکیب — باید ő، ű، و قالب‌های رمزگذاری مختلف را مدیریت کند

برای مقایسه نحوه تعیین الزامات فنی توسط DPAهای اروپای مرکزی، راهنمای BFDI آلمان ما را ببینید. برای یک شکاف زبانی مشابه در اروپای مرکزی، راهنمای ÚOOÚ چک ما را ببینید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

NAIH مجارستان: TAJ-Szám و Adóazonosító Jel

چرا NER مجاری امتیاز پایین می‌گیرد

TAJ-Szám: شماره تأمین اجتماعی مجارستان

Adóazonosító Jel: شناسه مالیاتی مجارستان

الزام DPIA NAIH برای سیستم‌های هوش مصنوعی

حداقل کنترل‌های فنی

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

NAIH مجارستان: TAJ-Szám و Adóazonosító Jel

NAIH مجارستان: TAJ-Szám و الزامات فنی GDPR

چرا NER مجاری امتیاز پایین می‌گیرد

TAJ-Szám: شماره تأمین اجتماعی مجارستان

Adóazonosító Jel: شناسه مالیاتی مجارستان

الزام DPIA NAIH برای سیستم‌های هوش مصنوعی

حداقل کنترل‌های فنی

منابع

مقالات مرتبط

ابزارهای PII خود-میزبان در حسابرسی‌های انطباق شکست می‌خورند

Presidio بیش از ۲۲۰ موجودیت GDPR را نادیده می‌گیرد

انحراف تنظیمات: یک خطر پنهان GDPR

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow