NAIH Венгрия: TAJ-szám и технические требования GDPR
Обновлено для 2026 года
Венгерский орган по защите данных — NAIH. Согласно отчёту ведомства за 2024 год, точность NER для венгерского языка составляет лишь 67% при среднеевропейском показателе 82%. Этот разрыв несёт реальный риск: инструменты, созданные для английского или немецкого языка, упускают венгерские идентификаторы с высокой частотой.
Почему NER показывает низкие результаты для венгерского языка
Три особенности венгерского языка нарушают работу стандартных NLP-моделей.
Агглютинация: венгерский добавляет суффиксы к корневым словам. Одно и то же имя принимает множество форм в зависимости от роли в предложении. «Kovács Péter» в именительном падеже становится «Kovács Péternek» в другой форме. NER-модели должны связывать все эти формы с одним человеком.
Порядок имени: в венгерском сначала идёт фамилия. Большинство NLP-моделей ожидают имя на первом месте. Эта инверсия вызывает пропуски при обнаружении.
Специальные символы: венгерский использует ő и ű — это не немецкие умлауты. Смешанная кодировка (Windows-1250 против UTF-8) также приводит к сбоям.
Эти три фактора объясняют бо́льшую часть разрыва в точности, зафиксированного в отчёте NAIH за 2024 год.
TAJ-szám: венгерский номер социального страхования
TAJ-szám (Társadalombiztosítási Azonosító Jel) — 9-значный номер. Он встречается в документах по здравоохранению, расчётных ведомостях, социальных выплатах и пенсионных записях.
Контрольная сумма: цифры с 1 по 8 умножаются на веса 3, 7, 3, 7, 3, 7, 3, 7. Результаты суммируются. Остаток от деления на 10 — и есть контрольная цифра.
Данный алгоритм уникален для Венгрии и не совпадает с алгоритмом Луна, используемым в других странах.
Универсальные инструменты обнаруживают TAJ-szám лишь с 61-процентной точностью — согласно отчёту NAIH за 2024 год. 9-значный формат легко перепутать со многими другими числами в венгерских документах. Без проверки контрольной суммы инструменты порождают ложные срабатывания и пропускают реальные идентификаторы.
Adóazonosító jel: венгерский налоговый идентификатор
Adóazonosító jel — 10-значный персональный налоговый номер. Его первая цифра всегда 8. Он встречается в трудовых договорах, налоговых декларациях и финансовых документах.
Контрольная сумма: цифры со 2 по 9 умножаются на веса 9, 7, 3, 1, 9, 7, 3, 1. Результаты суммируются. Остаток от деления на 10 — контрольная цифра. Нулевой результат означает, что контрольная цифра равна 0.
Правоприменительные дела NAIH показывают: этот номер нередко остаётся необнаруженным в HR-документах, когда инструменты настроены на другие языки.
Сравнение этих номеров с идентификаторами других государств-членов — в нашем руководстве по национальным налоговым ID ЕС.
Требование NAIH об ОВПД для ИИ-систем
Руководство NAIH 2024 года требует проведения оценки воздействия на защиту данных (ОВПД) до начала обработки персональных данных любой ИИ-системой. Это более строгое требование, чем общий тест GDPR. ОВПД должна охватывать:
- Потоки данных — обучающие данные, входные данные и результаты
- Правовое основание — задокументированное для каждого вида деятельности
- Точность по языку — обязательна для языков с показателями ниже среднего по ЕС
- Участие человека — механизм проверки автоматизированных решений
ОВПД должна обновляться ежегодно при переобучении системы.
Для команд, внедряющих ИИ-инструменты для работы с венгерскими данными, порядок фиксирован: сначала ОВПД, затем — развёртывание.
Минимальные технические меры контроля
Три меры образуют базовый уровень для соответствия требованиям NAIH:
- Обнаружение TAJ-szám с проверкой по модулю 10 — одного лишь сопоставления с шаблоном недостаточно
- Обнаружение adóazonosító jel с проверкой контрольной суммы — критически важно для HR и финансов
- NER для венгерского языка с поддержкой агглютинации — должна обрабатывать ő, ű и варианты кодировок
Сравнение подхода центральноевропейских регуляторов к техническим требованиям — в нашем руководстве для BfDI Германии. Схожий языковой разрыв в Центральной Европе — в нашем руководстве по чешскому ÚOOÚ.