NAIH Унгария: TAJ-szam и технически изисквания по GDPR
Актуализирано за 2026 г.
Унгарският орган за защита на данните е NAIH. Докладът му за 2024 г. установи, че точността на NER за унгарски е само 67%. Средната за ЕС е 82%. Тази пропаст поражда реален риск. Инструменти, разработени за английски или немски, пропускат унгарски идентификатори с висока честота.
Защо NER за унгарски постига ниски резултати
Три особености на унгарския разбиват стандартните NLP модели.
Аглутинация: Унгарският добавя наставки към корените на думите. Едно и също име приема много форми в изречението. "Kovacs Peter" в именителен падеж се превръща в "Kovacs Peternek" в друга роля. NER моделите трябва да свързват всички тези форми с едно лице.
Ред на имената: Унгарският поставя фамилното име на първо място. Повечето NLP модели очакват първо собственото. Това обръщане причинява пропуснати разпознавания.
Специални знаци: Унгарският използва "o" и "u" с двойна акутна ударение. Те не са еднакви с германските умлаути. Смесеното кодиране - Windows-1250 срещу UTF-8 - също причинява грешки.
Тези три фактора обясняват по-голямата част от пропастта в точността в доклада на NAIH за 2024 г.
TAJ-szam: Унгарският номер за социална сигурност
TAJ-szam (Tarsadalombiztositasi Azonosito Jel) е 9-цифрен номер. Появява се в здравеопазването, ведомостите за заплати, социалните помощи и пенсионните документи.
Контролна сума: Умножете цифри от 1 до 8 по теглата 3, 7, 3, 7, 3, 7, 3, 7. Съберете резултатите. Вземете остатъка от деление на 10. Това е контролната цифра.
Този алгоритъм е уникален за Унгария. Той не е алгоритъмът на Luhn, използван в другите страни.
Общите инструменти разпознават TAJ-szam само с 61% точност според доклада на NAIH за 2024 г. 9-цифреният формат прилича на много други числа в унгарски документи. Без стъпката за контролна сума инструментите маркират фалшиви положителни резултати и пропускат реални.
Adoazonositо jel: Унгарският данъчен идентификатор
Adoazonositо jel е 10-цифрен личен данъчен номер. Първата цифра винаги е 8. Появява се в трудови документи, данъчни декларации и финансови документи.
Контролна сума: Вземете цифри от 2 до 9. Умножете по теглата 9, 7, 3, 1, 9, 7, 3, 1. Съберете резултатите. Вземете остатъка от деление на 10. Това е контролната цифра. Резултат 0 означава, че контролната цифра е 0.
Правоприлагащите случаи на NAIH показват, че този номер често се пропуска в HR документи, когато инструментите са конфигурирани за други езици.
Вижте нашето ръководство за националните данъчни идентификатори в ЕС за сравнение на тези номера между държавите-членки.
Изискването на NAIH за DPIA при AI системи
Насоките на NAIH за 2024 г. изискват завършена DPIA (Оценка на въздействието върху защитата на данните) преди всяка AI система да обработва лични данни. Това е по-строго от общия тест по GDPR. DPIA трябва да обхваща:
- Потоци от данни - данни за обучение, входни данни и изходни данни
- Правно основание - документирано за всяка дейност
- Езикова точност - изисква се за езици под средното за ЕС
- Преглед от човек - начин за проверка на автоматизирани решения
DPIA трябва да се актуализира всяка година при преобучаване на системата.
За екипи, внедряващи AI инструменти за унгарски данни, редът е фиксиран: първо DPIA, след това внедряване.
Минимални технически контролни мерки
Три контролни мерки образуват базата за съответствие с NAIH:
- Разпознаване на TAJ-szam с контролна сума по модул 10 - съпоставянето на шаблони само по себе си не е достатъчно
- Разпознаване на adoazonositо jel с валидиране на контролна сума - от критично значение за HR и финанси
- NER за унгарски с поддръжка на аглутинация - трябва да обработва специалните знаци и варианти на кодировката
Вижте нашето ръководство за BFDI Германия за сравнение на техническите изисквания, определени от централноевропейските органи за защита на данните. За подобна езикова пропаст в Централна Европа вижте нашето ръководство за чешкия UOOU.