anonym.legal
Înapoi la BlogGDPR & Conformitate

NAIH Ungaria: TAJ-Szam, Adoazonosito Jel si De Ce...

Acuratetea NER maghiara este de 67% fata de media UE de 82% — evaluarea NAIH din 2024.

April 21, 20267 min citire
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Decalajul de Acuratete NER de 67%: Ce Inseamna

Decalajul de acuratete intre modelele NER pentru maghiara si limbile europene majore are cauze lingvistice structurale:

Morfologia maghiara: Maghiara este o limba aglutinativa — cuvintele sunt formate prin concatenarea sufixelor pentru a exprima relatii gramaticale pe care engleza le exprima prin cuvinte separate. Un nume maghiar intr-o propozitie ia forme gramaticale diferite in functie de rolul sau: 'Kovacs Peter' (nominativ), 'Kovacs Peternek' (dativ), 'Kovacs Petertol' (ablativ). Modelele NER trebuie sa recunoasca acelasi nume in zeci de forme gramaticale.

Ordinea numelor: Numele maghiare sunt scrise in ordinea orientala — numele de familie intai, prenumele al doilea (Kovacs Peter, nu Peter Kovacs). Aceasta este inversul ordinii numelor din Europa de Vest. Modelele NLP antrenate pe tipare de nume engleze sau germane care presupun ordinea prenume-de-familie vor rata entitatile de nume maghiare.

TAJ-Szam: Numarul de Securitate Sociala al Ungariei

TAJ-szam (Tajekoztatasi Azonosito Jel) este un numar de asigurari sociale maghiar de 9 cifre cu validare prin suma ponderata:

Algoritmul: multiplicati cifrele 1-8 prin greutati (3,7,3,7,3,7,3,7), sumati produsele, luati modulo 10. Cifra de control egal cu (10 - (suma mod 10)) mod 10.

TAJ-szam este utilizat pentru asistenta medicala, pensii si prestatii sociale — date din categoria speciala conform GDPR Articolul 9.

Adoazonosito Jel (numarul de identificare fiscala): 10 cifre, utilizate pentru raportarea fiscala si identificarea angajatilor.

Surse: Evaluarea Tehnica NAIH 2024; Indrumarea privind Sistemele AI NAIH 2024; Raport de Evaluare NER pentru Limbi Europene 2024

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.