Decalajul de Acuratete NER de 67%: Ce Inseamna
Decalajul de acuratete intre modelele NER pentru maghiara si limbile europene majore are cauze lingvistice structurale:
Morfologia maghiara: Maghiara este o limba aglutinativa — cuvintele sunt formate prin concatenarea sufixelor pentru a exprima relatii gramaticale pe care engleza le exprima prin cuvinte separate. Un nume maghiar intr-o propozitie ia forme gramaticale diferite in functie de rolul sau: 'Kovacs Peter' (nominativ), 'Kovacs Peternek' (dativ), 'Kovacs Petertol' (ablativ). Modelele NER trebuie sa recunoasca acelasi nume in zeci de forme gramaticale.
Ordinea numelor: Numele maghiare sunt scrise in ordinea orientala — numele de familie intai, prenumele al doilea (Kovacs Peter, nu Peter Kovacs). Aceasta este inversul ordinii numelor din Europa de Vest. Modelele NLP antrenate pe tipare de nume engleze sau germane care presupun ordinea prenume-de-familie vor rata entitatile de nume maghiare.
TAJ-Szam: Numarul de Securitate Sociala al Ungariei
TAJ-szam (Tajekoztatasi Azonosito Jel) este un numar de asigurari sociale maghiar de 9 cifre cu validare prin suma ponderata:
Algoritmul: multiplicati cifrele 1-8 prin greutati (3,7,3,7,3,7,3,7), sumati produsele, luati modulo 10. Cifra de control egal cu (10 - (suma mod 10)) mod 10.
TAJ-szam este utilizat pentru asistenta medicala, pensii si prestatii sociale — date din categoria speciala conform GDPR Articolul 9.
Adoazonosito Jel (numarul de identificare fiscala): 10 cifre, utilizate pentru raportarea fiscala si identificarea angajatilor.
Surse: Evaluarea Tehnica NAIH 2024; Indrumarea privind Sistemele AI NAIH 2024; Raport de Evaluare NER pentru Limbi Europene 2024