Tagasi BlogisseGDPR ja Vastavus

NAIH Ungari: TAJ-szám, Adóazonosító Jel...

Ungari NER täpsus on 67% vs EL keskmine 82% — NAIH 2024. aasta hindamine. TAJ-szám kaalutud kontrolsumma ja adóazonosító jel tuvastamis lüngad.

April 21, 20267 min lugemist
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Magyarország Nemzeti Adatvédelmi és Információszabadság Hatósága (NAIH) avaldas 2024. aasta tehniline hindamine, mis paljastab, et ungari keele NER mudelite täpsus jõuab ainult 67% — võrreldud EL keskmise 82% põhiliste euroopa keelede jaoks. See lünk otseselt mõjutab nõuetekohasus: organisatsioonid, kes töötlevad ungari isikuandmeid saksa või inglise NLP tööriistadega, süsteemselt jäävad vahele ungari-spetsiifilised identifikaatorid ja nime üksused.

67% NER täpsuse lünk: Mida see tähendab

Täpsuse lünk ungari ja põhiliste euroopa keele NER mudelite vahel on struktuuriliste keeleliste põhjustega:

Ungari morfoloogia: Ungari on aglutinatiivne keel — sõnad moodustavad konkateneerimise suffikseid, et väljendada grammatilisi suhteid, mida inglise väljendab eraldi sõnadega. Ungari nimi lauses võtab erinevad grammatilised vormid sõltuvalt selle rollest: "Kovács Péter" (nominatiiv), "Kovács Péternek" (datiiv), "Kovács Pétertől" (ablatiiv). NER mudelid peaksid tunnistama sama nime kümned grammatilised vormid.

Nimede järjekord: Ungari nimed kirjutatakse Idapoolse järjekord — perekond nimi esimene, antud nimi teine (Kovács Péter, mitte Péter Kovács). See on vastupidine Lääne-Euroopa nimede järjekord. NLP mudelid treenitud inglise või saksa nimi mustritele, mis eeldada antud-nimi-esimesena järjekord süsteemselt ei õnnestu tunnistada ungari nimed.

Ungari märkide komplekt: Ungari kasutab ő, ű (kahe-akuutse vokaalidega) lisaks ö, ü. Need märgid on erinevad saksa ülemustest...

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.