Magyarország Nemzeti Adatvédelmi és Információszabadság Hatósága (NAIH) avaldas 2024. aasta tehniline hindamine, mis paljastab, et ungari keele NER mudelite täpsus jõuab ainult 67% — võrreldud EL keskmise 82% põhiliste euroopa keelede jaoks. See lünk otseselt mõjutab nõuetekohasus: organisatsioonid, kes töötlevad ungari isikuandmeid saksa või inglise NLP tööriistadega, süsteemselt jäävad vahele ungari-spetsiifilised identifikaatorid ja nime üksused.
67% NER täpsuse lünk: Mida see tähendab
Täpsuse lünk ungari ja põhiliste euroopa keele NER mudelite vahel on struktuuriliste keeleliste põhjustega:
Ungari morfoloogia: Ungari on aglutinatiivne keel — sõnad moodustavad konkateneerimise suffikseid, et väljendada grammatilisi suhteid, mida inglise väljendab eraldi sõnadega. Ungari nimi lauses võtab erinevad grammatilised vormid sõltuvalt selle rollest: "Kovács Péter" (nominatiiv), "Kovács Péternek" (datiiv), "Kovács Pétertől" (ablatiiv). NER mudelid peaksid tunnistama sama nime kümned grammatilised vormid.
Nimede järjekord: Ungari nimed kirjutatakse Idapoolse järjekord — perekond nimi esimene, antud nimi teine (Kovács Péter, mitte Péter Kovács). See on vastupidine Lääne-Euroopa nimede järjekord. NLP mudelid treenitud inglise või saksa nimi mustritele, mis eeldada antud-nimi-esimesena järjekord süsteemselt ei õnnestu tunnistada ungari nimed.
Ungari märkide komplekt: Ungari kasutab ő, ű (kahe-akuutse vokaalidega) lisaks ö, ü. Need märgid on erinevad saksa ülemustest...