NAIH Угорщина: TAJ-szám та технічні вимоги GDPR
Оновлено для 2026 року
Угорський орган захисту даних — NAIH. Його звіт 2024 року показав, що точність NER для угорської мови становить лише 67%. Середній показник по ЄС — 82%. Ця прогалина породжує реальний ризик. Інструменти, побудовані для англійської або німецької мов, пропускають угорські ідентифікатори з високою частотою.
Чому NER для угорської мови має низькі показники
Три особливості угорської мови руйнують стандартні NLP-моделі.
Аглютинація: угорська мова додає суфікси до кореневих слів. Те саме ім'я набуває різних форм у реченні. «Kovács Péter» у позиції підмета стає «Kovács Péternek» в іншій ролі. NER-моделі мають пов'язувати всі ці форми з однією особою.
Порядок імен: в угорській мові прізвище стоїть першим. Більшість NLP-моделей очікують спочатку ім'я. Ця інверсія призводить до пропуску виявлень.
Спеціальні символи: угорська мова використовує ő та ű. Вони не є тими самими, що й німецькі умляути. Змішане кодування — Windows-1250 проти UTF-8 — також спричиняє помилки.
Ці три фактори пояснюють більшу частину прогалини в точності у звіті NAIH 2024 року.
TAJ-szám: номер соціального страхування Угорщини
TAJ-szám (Társadalombiztosítási Azonosító Jel) — це 9-значний номер. Він зустрічається в записах про охорону здоров'я, нарахування заробітної плати, соціальні виплати та пенсії.
Контрольна сума: цифри з 1 по 8 множать на ваги 3, 7, 3, 7, 3, 7, 3, 7. Додають результати. Беруть остачу від ділення на 10 — це і є контрольна цифра.
Цей алгоритм є унікальним для Угорщини. Він відрізняється від алгоритму Луна, що використовується в інших країнах.
Загальні інструменти виявляють TAJ-szám лише з точністю 61%, відповідно до звіту NAIH 2024 року. 9-значний формат схожий на безліч інших чисел в угорських документах. Без кроку перевірки контрольної суми інструменти генерують хибнопозитивні результати і пропускають реальні.
Adóazonosító jel: податковий ідентифікатор Угорщини
Adóazonosító jel — це 10-значний особистий податковий номер. Перша цифра завжди 8. Він зустрічається в записах про зайнятість, податкових деклараціях і фінансових документах.
Контрольна сума: беруть цифри з 2 по 9. Множать на ваги 9, 7, 3, 1, 9, 7, 3, 1. Додають результати. Беруть остачу від ділення на 10 — це контрольна цифра. Результат 0 означає, що контрольна цифра дорівнює 0.
Справи NAIH щодо виконання показують, що цей номер часто пропускається в документах HR, коли інструменти налаштовані на інші мови.
Дивіться наш посібник з EU national tax ID про те, як ці номери порівнюються між державами-членами.
Вимога NAIH щодо DPIA для AI-систем
Керівництво NAIH 2024 року вимагає завершеного DPIA до того, як будь-яка AI-система обробляє персональні дані. Це є суворішим, ніж загальний тест за GDPR. DPIA має охоплювати:
- Потоки даних — навчальні дані, вхідні та вихідні дані
- Правова підстава — задокументована для кожного виду діяльності
- Мовна точність — обов'язкова для мов нижче середнього рівня по ЄС
- Людський огляд — спосіб перевірки автоматизованих рішень
DPIA необхідно оновлювати щороку при перенавчанні системи.
Для команд, що розгортають AI-інструменти на угорських даних, порядок є фіксованим: спочатку DPIA, потім розгортання.
Мінімальні технічні заходи контролю
Три заходи утворюють базову лінію для відповідності NAIH:
- Виявлення TAJ-szám з контрольною сумою за модулем 10 — простого пошуку за шаблоном недостатньо
- Виявлення adóazonosító jel з перевіркою контрольної суми — критично важливо для HR і фінансів
- NER для угорської мови з підтримкою аглютинації — має обробляти ő, ű і варіанти кодування
Дивіться наш посібник BFDI Німеччина для порівняння того, як DPA Центральної Европи встановлюють технічні вимоги. Для аналогічної мовної прогалини в Центральній Европі дивіться наш посібник чеського ÚOOÚ.