Maďarské Národní Identifikátory: Technická Specifikace
TAJ-szám (Társadalombiztosítási Azonosító Jel): TAJ-szám je 9místné číslo sociálního pojištění s váženou kontrolní číslicí:
Format: XXX XXX XXX (3-3-3 číslice se mezerami)
Algoritmus kontrolní číslice:
- Násobte číslice 1-8 váhami: 3, 7, 3, 7, 3, 7, 3, 7
- Sečtěte součiny
- Kontrolní číslice = součet mod 10
Adóazonosítójel (Daňové identifikační číslo fyzické osoby): 10místné číslo ve formátu: 8XXXXXXXX0
Kde:
- Číslice 1: vždy 8 (fixní prefix)
- Číslice 2-9: datum narození kódované (dny od 1. listopadu 1867 + pořadové číslo)
- Číslice 10: kontrolní číslice
Kódování data: (rok - 1867) × 365 + (den v roce) + pořadové číslo pro osoby narozené ve stejný den
Cégjegyzékszám (Číslo registrace společnosti): Format: NN-CC-XXXXXX kde NN je kód kraje (01-20), CC je kód soudu a XXXXXX je pořadové číslo.
Výzvy Maďarské NER
Maďarská agglutinativní morfologie vytváří výzvy, které jsou technicky náročnější než většina evropských jazyků:
- Sloveso může integrovat objekt, nástroj, místo a čas jako přípony
- Jediné maďarské slovo odpovídá anglické větě: „elnemdalolandolgathattalak" (could I not have started to sing along with you)
- Jmenné entity (lidská jména) se skloňují podle 18 pádů
- Neexistuje kapitalizace rodových podstatných jmen (vyjma jako věty začáteční pozice)
Pro NER: Detekce jmen v maďarském textu vyžaduje rozpoznání skloněných forem. „Kovács János" (jmenný tvar), „Kovács Jánosnak" (dativní tvar — „Jánovi Kovácsovi"), „Kovács Jánosról" (ablativ — „o Jánovi Kovácsovi") musí být všechny detekovány jako stejná osoba.
NAIH Technické Požadavky: NAIH pokyny z roku 2024 specifikují, že AI systémy zpracovávající maďarská osobní data musí prokázat:
- Minimálně 90 % recall pro TAJ-szám a adóazonosítójel
- Minimálně 82 % recall pro maďarská jmenná entity
- Dokumentaci modelového přístupu pro maďarský text zpracovávání
Zdroje: