Актуализирано за 2026 г.

Унгарският орган за защита на данните е NAIH. Докладът му за 2024 г. установи, че точността на NER за унгарски е само 67%. Средната за ЕС е 82%. Тази пропаст поражда реален риск. Инструменти, разработени за английски или немски, пропускат унгарски идентификатори с висока честота.

Защо NER за унгарски постига ниски резултати

Три особености на унгарския разбиват стандартните NLP модели.

Аглутинация: Унгарският добавя наставки към корените на думите. Едно и също име приема много форми в изречението. "Kovacs Peter" в именителен падеж се превръща в "Kovacs Peternek" в друга роля. NER моделите трябва да свързват всички тези форми с едно лице.

Ред на имената: Унгарският поставя фамилното име на първо място. Повечето NLP модели очакват първо собственото. Това обръщане причинява пропуснати разпознавания.

Специални знаци: Унгарският използва "o" и "u" с двойна акутна ударение. Те не са еднакви с германските умлаути. Смесеното кодиране - Windows-1250 срещу UTF-8 - също причинява грешки.

Тези три фактора обясняват по-голямата част от пропастта в точността в доклада на NAIH за 2024 г.

TAJ-szam: Унгарският номер за социална сигурност

TAJ-szam (Tarsadalombiztositasi Azonosito Jel) е 9-цифрен номер. Появява се в здравеопазването, ведомостите за заплати, социалните помощи и пенсионните документи.

Контролна сума: Умножете цифри от 1 до 8 по теглата 3, 7, 3, 7, 3, 7, 3, 7. Съберете резултатите. Вземете остатъка от деление на 10. Това е контролната цифра.

Този алгоритъм е уникален за Унгария. Той не е алгоритъмът на Luhn, използван в другите страни.

Общите инструменти разпознават TAJ-szam само с 61% точност според доклада на NAIH за 2024 г. 9-цифреният формат прилича на много други числа в унгарски документи. Без стъпката за контролна сума инструментите маркират фалшиви положителни резултати и пропускат реални.

Adoazonositо jel: Унгарският данъчен идентификатор

Adoazonositо jel е 10-цифрен личен данъчен номер. Първата цифра винаги е 8. Появява се в трудови документи, данъчни декларации и финансови документи.

Контролна сума: Вземете цифри от 2 до 9. Умножете по теглата 9, 7, 3, 1, 9, 7, 3, 1. Съберете резултатите. Вземете остатъка от деление на 10. Това е контролната цифра. Резултат 0 означава, че контролната цифра е 0.

Правоприлагащите случаи на NAIH показват, че този номер често се пропуска в HR документи, когато инструментите са конфигурирани за други езици.

Вижте нашето ръководство за националните данъчни идентификатори в ЕС за сравнение на тези номера между държавите-членки.

Изискването на NAIH за DPIA при AI системи

Насоките на NAIH за 2024 г. изискват завършена DPIA (Оценка на въздействието върху защитата на данните) преди всяка AI система да обработва лични данни. Това е по-строго от общия тест по GDPR. DPIA трябва да обхваща:

Потоци от данни - данни за обучение, входни данни и изходни данни
Правно основание - документирано за всяка дейност
Езикова точност - изисква се за езици под средното за ЕС
Преглед от човек - начин за проверка на автоматизирани решения

DPIA трябва да се актуализира всяка година при преобучаване на системата.

За екипи, внедряващи AI инструменти за унгарски данни, редът е фиксиран: първо DPIA, след това внедряване.

Минимални технически контролни мерки

Три контролни мерки образуват базата за съответствие с NAIH:

Разпознаване на TAJ-szam с контролна сума по модул 10 - съпоставянето на шаблони само по себе си не е достатъчно
Разпознаване на adoazonositо jel с валидиране на контролна сума - от критично значение за HR и финанси
NER за унгарски с поддръжка на аглутинация - трябва да обработва специалните знаци и варианти на кодировката

Вижте нашето ръководство за BFDI Германия за сравнение на техническите изисквания, определени от централноевропейските органи за защита на данните. За подобна езикова пропаст в Централна Европа вижте нашето ръководство за чешкия UOOU.

Източници

Свързани статии

GDPR и съответствие

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

Започнете безплатен пробен период Вижте функции

NAIH Унгария: TAJ-szam и Adoazonositо Jel

Защо NER за унгарски постига ниски резултати

TAJ-szam: Унгарският номер за социална сигурност

Adoazonositо jel: Унгарският данъчен идентификатор

Изискването на NAIH за DPIA при AI системи

Минимални технически контролни мерки

Източници

Свързани статии

Собственото хостване на PII инструменти не преминава одити за съответствие

Presidio пропуска 220+ обекти по GDPR

Отклонение в конфигурацията: Скрит GDPR риск

Готови ли сте да защитите данните си?

NAIH Унгария: TAJ-szam и Adoazonositо Jel

NAIH Унгария: TAJ-szam и технически изисквания по GDPR

Защо NER за унгарски постига ниски резултати

TAJ-szam: Унгарският номер за социална сигурност

Adoazonositо jel: Унгарският данъчен идентификатор

Изискването на NAIH за DPIA при AI системи

Минимални технически контролни мерки

Източници

Свързани статии

Собственото хостване на PII инструменти не преминава одити за съответствие

Presidio пропуска 220+ обекти по GDPR

Отклонение в конфигурацията: Скрит GDPR риск

Готови ли сте да защитите данните си?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow