anonym.legal
Назад към блогаGDPR и съответствие

NAIH Унгария: TAJ-Szám, Adóazonosító Jel и защо...

Точността на NER в Унгария е 67% спрямо средното за ЕС 82% — оценка на NAIH за 2024 г.

April 21, 20267 мин. четене
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Унгарският Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) публикува техническа оценка от 2024 г., която разкрива, че точността на NER модела на унгарски език достига само 67% — в сравнение със средната стойност за ЕС от 82% за основните европейски езици. Тази празнина пряко засяга съответствието: организациите, обработващи унгарски лични данни с немски или английски NLP инструменти, систематично пропускат специфични за Унгария идентификатори и имена на обекти.

Разликата в точността от 67% NER: Какво означава това

Разликата в точността между моделите NER на унгарски и основните европейски езици има структурни лингвистични причини:

Унгарска морфология: Унгарският е аглутинативен език — думите се образуват чрез свързване на суфикси, за да изразят граматически връзки, които английският изразява чрез отделни думи. Унгарско име в изречение приема различни граматически форми в зависимост от ролята си: „Kovács Péter“ (именателен падеж), „Kovács Péternek“ (дателен падеж), „Kovács Pétertől“ (аблатив). NER моделите трябва да разпознават едно и също име в десетки граматически форми.

Ред на имената: Унгарските имена се изписват в източен ред — първо фамилията, второ собственото име (Kovács Péter, а не Péter Kovács). Това е обратният ред на имената в Западна Европа. Моделите NLP, обучени на английски или немски шаблони за имена, които предполагат, че даденото име е първо в реда, систематично не разпознават унгарските имена.

**Унгарски набор от знаци: ** Унгарският използва ő, ű (гласни с двоен акут) в допълнение към ö, ü. Тези знаци се различават от немските умлаути и изискват отделно кодиране/токенизиране. Документи с несъответствия в кодирането (Windows-1250 срещу UTF-8) създават грешки при откриване.

Резултатът: организациите, използващи английски или немски инструменти NLP за обработка на унгарски HR записи, медицински документи или клиентски договори, пропускат унгарски имена с 33% по-висок процент от същите инструменти, приложени към английски или немски текст.

TAJ-Szám: Социалноосигурителен идентификатор на Унгария

TAJ-szám (Társadalombiztosítási Azonosító Jel) е 9-цифрен социалноосигурителен идентификационен номер на Унгария, който се дава на всички унгарски граждани и жители. Появява се в:

  • Здравна регистрация и медицинска документация
  • Трудови договори (задължителни за заплати)
  • Записване на социални помощи
  • Записи по пенсионна сметка

Контролна сума: Контролната цифра на TAJ-szám се изчислява с помощта на претеглена сума: умножете цифрите 1-8 по редуващи се тегла (3,7,3,7,3,7,3,7), сумата, вземете по модул 10. Резултатът е контролната цифра. Този алгоритъм е специфичен за Унгария — не е същият алгоритъм на Luhn, използван за шведски personnummer или SIN.

TAJ-szám е открит само с 61% точност от общи NLP инструменти (оценка NAIH 2024). Основният отказ: 9-цифреният формат съвпада с много референтни номера в унгарски документи и без специфичната за TAJ контролна сума инструментите не могат да разграничат TAJ числата от фалшивите положителни резултати.

Adóazonosító Jel: Данъчен идентификационен номер на Унгария

Adóazonosító jel е 10-цифрен индивидуален данъчен идентификационен номер (да не се бърка с фирмения данъчен номер, adószám). Формат: 8XXXXXXXX, където първата цифра винаги е 8 (константа), последвана от 9 цифри с контролна цифра.

Изчисляване на контролна цифра: умножете цифри 2-9 по тегла (9,7,3,1,9,7,3,1), сума, вземете модул 10. Ако резултатът е 0, контролната цифра е 0. В противен случай резултатът е контролната цифра.

Adóazonosító jel се появява в трудови досиета, данъчни декларации, договори за изпълнител на свободна практика и документи за финансови услуги. Прилагането на NAIH установи, че той често се пропуска в документи за човешки ресурси, обработвани от конфигурирани от чуждестранни инструменти инструменти за лична информация.

NAIH Изискване за AI система DPIA

Ръководството на NAIH за 2024 г. изисква попълнен DPIA преди внедряването на каквато и да е AI система, обработваща лични данни – по-предписващо от базирания на риска подход на GDPR. DPIA трябва:

  • Опишете входовете на данните на AI модела (данни за обучение, входове за изводи) и изходите
  • Документирайте правното основание за всяко обработване на лични данни
  • Оценете точността на обработка на унгарски език (NAIH специално изисква документация за точност за езици, които не са средните за ЕС)
  • Включете механизъм за човешки преглед за автоматизирани решения
  • Да се актуализира ежегодно, когато системата AI бъде преквалифицирана

За организации, внедряващи AI инструменти, които обработват данни на унгарски служители, клиенти или граждани: комбинацията от задължителния DPIA на NAIH, разликата в точността от 67% NER, изискваща специфични за Унгария модели, и изискванията за валидиране на контролната сума TAJ-szám и adóazonosító jel създава различен профил за техническо съответствие.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.