Оновлено для 2026 року

Угорський орган захисту даних — NAIH. Його звіт 2024 року показав, що точність NER для угорської мови становить лише 67%. Середній показник по ЄС — 82%. Ця прогалина породжує реальний ризик. Інструменти, побудовані для англійської або німецької мов, пропускають угорські ідентифікатори з високою частотою.

Чому NER для угорської мови має низькі показники

Три особливості угорської мови руйнують стандартні NLP-моделі.

Аглютинація: угорська мова додає суфікси до кореневих слів. Те саме ім'я набуває різних форм у реченні. «Kovács Péter» у позиції підмета стає «Kovács Péternek» в іншій ролі. NER-моделі мають пов'язувати всі ці форми з однією особою.

Порядок імен: в угорській мові прізвище стоїть першим. Більшість NLP-моделей очікують спочатку ім'я. Ця інверсія призводить до пропуску виявлень.

Спеціальні символи: угорська мова використовує ő та ű. Вони не є тими самими, що й німецькі умляути. Змішане кодування — Windows-1250 проти UTF-8 — також спричиняє помилки.

Ці три фактори пояснюють більшу частину прогалини в точності у звіті NAIH 2024 року.

TAJ-szám: номер соціального страхування Угорщини

TAJ-szám (Társadalombiztosítási Azonosító Jel) — це 9-значний номер. Він зустрічається в записах про охорону здоров'я, нарахування заробітної плати, соціальні виплати та пенсії.

Контрольна сума: цифри з 1 по 8 множать на ваги 3, 7, 3, 7, 3, 7, 3, 7. Додають результати. Беруть остачу від ділення на 10 — це і є контрольна цифра.

Цей алгоритм є унікальним для Угорщини. Він відрізняється від алгоритму Луна, що використовується в інших країнах.

Загальні інструменти виявляють TAJ-szám лише з точністю 61%, відповідно до звіту NAIH 2024 року. 9-значний формат схожий на безліч інших чисел в угорських документах. Без кроку перевірки контрольної суми інструменти генерують хибнопозитивні результати і пропускають реальні.

Adóazonosító jel: податковий ідентифікатор Угорщини

Adóazonosító jel — це 10-значний особистий податковий номер. Перша цифра завжди 8. Він зустрічається в записах про зайнятість, податкових деклараціях і фінансових документах.

Контрольна сума: беруть цифри з 2 по 9. Множать на ваги 9, 7, 3, 1, 9, 7, 3, 1. Додають результати. Беруть остачу від ділення на 10 — це контрольна цифра. Результат 0 означає, що контрольна цифра дорівнює 0.

Справи NAIH щодо виконання показують, що цей номер часто пропускається в документах HR, коли інструменти налаштовані на інші мови.

Дивіться наш посібник з EU national tax ID про те, як ці номери порівнюються між державами-членами.

Вимога NAIH щодо DPIA для AI-систем

Керівництво NAIH 2024 року вимагає завершеного DPIA до того, як будь-яка AI-система обробляє персональні дані. Це є суворішим, ніж загальний тест за GDPR. DPIA має охоплювати:

Потоки даних — навчальні дані, вхідні та вихідні дані
Правова підстава — задокументована для кожного виду діяльності
Мовна точність — обов'язкова для мов нижче середнього рівня по ЄС
Людський огляд — спосіб перевірки автоматизованих рішень

DPIA необхідно оновлювати щороку при перенавчанні системи.

Для команд, що розгортають AI-інструменти на угорських даних, порядок є фіксованим: спочатку DPIA, потім розгортання.

Мінімальні технічні заходи контролю

Три заходи утворюють базову лінію для відповідності NAIH:

Виявлення TAJ-szám з контрольною сумою за модулем 10 — простого пошуку за шаблоном недостатньо
Виявлення adóazonosító jel з перевіркою контрольної суми — критично важливо для HR і фінансів
NER для угорської мови з підтримкою аглютинації — має обробляти ő, ű і варіанти кодування

Дивіться наш посібник BFDI Німеччина для порівняння того, як DPA Центральної Европи встановлюють технічні вимоги. Для аналогічної мовної прогалини в Центральній Европі дивіться наш посібник чеського ÚOOÚ.

Джерела

Схожі статті

GDPR та відповідність

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

NAIH Угорщина: TAJ-szám та adóazonosító jel

Чому NER для угорської мови має низькі показники

TAJ-szám: номер соціального страхування Угорщини

Adóazonosító jel: податковий ідентифікатор Угорщини

Вимога NAIH щодо DPIA для AI-систем

Мінімальні технічні заходи контролю

Джерела

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

NAIH Угорщина: TAJ-szám та adóazonosító jel

NAIH Угорщина: TAJ-szám та технічні вимоги GDPR

Чому NER для угорської мови має низькі показники

TAJ-szám: номер соціального страхування Угорщини

Adóazonosító jel: податковий ідентифікатор Угорщини

Вимога NAIH щодо DPIA для AI-систем

Мінімальні технічні заходи контролю

Джерела

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow