NAIH Унгарија: TAJ-Szám и Технички Барања на GDPR
Ажурирано за 2026 година
Унгарскиот орган за заштита на податоци е NAIH. Неговиот извештај за 2024 година утврди дека точноста на NER за унгарски јазик е само 67%. Просекот на ЕУ е 82%. Тој јаз создава реален ризик. Алатките изградени за англиски или германски јазик пропуштаат унгарски идентификатори со високи стапки.
Зошто Унгарскиот NER Постигнува Ниски Оценки
Три карактеристики на унгарскиот јазик ги кршат стандардните NLP модели.
Аглутинација: Унгарскиот додава наставки на корените на зборовите. Истото ime зема многу форми во реченицата. "Kovács Péter" на позиција субјект станува "Kovács Péternek" во друга улога. NER моделите мора да ги поврзат сите тие форми со една личност.
Редослед на имиња: Унгарскиот го става семејното ime на прво место. Повеќето NLP модели очекуваат прво да дојде личното ime. Тоа обртање предизвикува пропуштени откривања.
Специјални знаци: Унгарскиот користи ő и ű. Тие не се исти со германските умлаути. Мешаното кодирање — Windows-1250 наспроти UTF-8 — исто така предизвикува грешки.
Овие три фактори ја објаснуваат поголемиот дел од јазот во точноста во извештајот на NAIH за 2024 година.
TAJ-Szám: Унгарскиот Број за Социјално Осигурување
TAJ-szám (Társadalombiztosítási Azonosító Jel) е 9-цифрен број. Се јавува во здравствената заштита, платите, социјалните бенефиции и пензиските записи.
Контролна сума: Цифрите 1 до 8 се множат со тежини 3, 7, 3, 7, 3, 7, 3, 7. Резултатите се собираат. Се зема остатокот по делење со 10. Тоа ја дава проверната цифра.
Овој алгоритам е единствен за Унгарија. Не е ист со Luhn алгоритмот кој се користи во другите земји.
Генеричките алатки го откриваат TAJ-szám со само 61% точност, според извештајот на NAIH за 2024 година. Форматот со 9 цифри изгледа слично на многу други броеви во унгарски документи. Без чекорот со контролната сума, алатките означуваат лажни позитиви и пропуштаат вистински.
Adóazonosító Jel: Унгарскиот Даночен Идентификатор
Adóazonosító jel е 10-цифрен личен даночен број. Првата цифра е секогаш 8. Се јавува во записите за вработување, даночните пријави и финансиските документи.
Контролна сума: Се земаат цифрите 2 до 9. Се множат со тежини 9, 7, 3, 1, 9, 7, 3, 1. Резултатите се собираат. Се зема остатокот по делење со 10. Тоа е проверната цифра. Резултат 0 значи дека проверната цифра е 0.
Случаите на спроведување на NAIH покажуваат дека овој број честопати се пропушта во документи за ЧР кога алатките се поставени за други јазици.
Барањето на NAIH за DPIA за Системи на ВИ
Упатството на NAIH за 2024 година бара завршена DPIA пред кој било систем на ВИ да обработи лични податоци. Ова е построго од општиот тест по GDPR. DPIA мора да опфаќа:
- Текови на податоци — податоци за обука, влезови и излези
- Правна основа — документирана за секоја активност
- Јазична точност — потребна за јазици под просекот на ЕУ
- Човечки преглед — начин за проверка на автоматизираните одлуки
DPIA мора да се ажурира секоја година кога системот се повторно обучува.
За тимови кои распоредуваат алатки на ВИ на унгарски податоци, редоследот е фиксен: прво DPIA, потоа распоредување.
Минимални Технички Контроли
Три контроли ја формираат основата за усогласеност со NAIH:
- Откривање на TAJ-szám со контролна сума по модул 10 — само совпаѓање на шаблони не е доволно
- Откривање на adóazonosító jel со валидација на контролна сума — критично за ЧР и финансии
- Унгарски NER со поддршка за аглутинација — мора да ги обработи ő, ű и варијантите на кодирање
Погледнете го нашиот водич за BFDI Германија за споредба на тоа како централноевропските DPA ги поставуваат техничките барања.