Itzuli BlogeraGDPR & Betetze

NAIH Hungaria: TAJ-Szám, Adóazonosító Jel eta...

Hungariaren NER zehaztasuna % 67 da EUko batezbesteko %82aren aldean — NAIHren 2024ko ebaluazioa.

April 21, 20267 min irakurri
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Hungariaren Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) argitaratu zuen 2024ko ebaluazio teknikoa, non Hungariaren hizkuntzan NER modeloaren zehaztasuna %67tik ez dela gainditzen — EUko hizkuntza europarren batezbesteko %82aren aldean. Hutsune hau zuzenean eragiten du betetzeari: datu pertsonalak duen Hungariaren hizkuntzarekin prozesatzen dituzten erakundeak aleman edo ingeleseko NLP tresnak erabiliz sistematikoki galtzen dute Hungariaren hizkuntzan zehaztuak diren identifikatzaileak eta izen-entitateak.

% 67ko NER Zehaztasun-gabezia: Zer esan nahi du

Hungariaren eta Europako hizkuntza handien artean NER modeloen zehaztasun-gabezia egiturazko kausa linguistikoak ditu:

Hungariaren morfologia: Hungaria da hizkuntza aglutinatiboa — hitzak osatzen dira sufixoak lotuz gramatika-harremanak adierazteko ingelesak hitz bereizien bidez adierazten dituena. Hungariaren izen bat esaldi batean hartu ditzake forma gramatika desberdina eginkizunaren arabera: "Kovács Péter" (nominatiboa), "Kovács Péternek" (datiboa), "Kovács Pétertől" (ablatiboa). NER modeloak aitortu behar du izen bera hamar bat forma gramatikaletan.

Izenaren ordena: Hungariaren izenak idatzi egiten dira Ekialdearen ordenan — familiaaren izena lehen, jaiotzaren izena bigarren (Kovács Péter, ez Péter Kovács). Honakoak dira batez besteko Mendebaldean Europako izenen ordena alderantziz. Ingelesean edo aleman idatziaren arazo ordenen gainean entrenaturik dauden NLP modeloak sistematikoki huts egiten dute Hungariaren izenak hautematea.

Hungariaren karaktere multzo: Hungariak ő, ű (bikoitz-akutu bokalak) erabiltzen ditu ö, ü-rekin batera. Horiek karaktere desberdintsuak dira aleman umlautetatik...

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.