Unkarin Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) julkaisi 2024 teknisen arvion, joka paljastaa, että unkarinkielisten NER-mallien tarkkuus on vain 67 % — verrattuna EU:n keskiarvoon 82 % suurille eurooppalaisille kielille. Tämä aukko vaikuttaa suoraan vaatimustenmukaisuuteen: organisaatiot, jotka käsittelevät unkarilaisia henkilötietoja saksalaisilla tai englanninkielisillä NLP-työkaluilla, jättävät systemaattisesti huomiotta unkarille spesifiset tunnisteet ja nimielementit.
67 % NER-tarkkuusaukko: mitä se tarkoittaa
Tarkkuusaukko unkarilaisten ja suurten eurooppalaisten kielten NER-mallien välillä johtuu rakenteellisista kielitieteellisistä syistä:
Unkarin morfologia: Unkari on agglutinoiva kieli — sanoja muodostetaan liittämällä suffikseja yhteen ilmaisemaan kieliopillisia suhteita, jotka englanti ilmaisee erillisillä sanoilla. Unkarilainen nimi lauseessa saa erilaisia kieliopillisia muotoja riippuen sen roolista: "Kovács Péter" (nominatiivi), "Kovács Péternek" (datiivi), "Kovács Pétertől" (ablatiivi). NER-mallien on tunnistettava sama nimi kymmenissä kieliopillisissa muodoissa.
Nimijärjestys: Unkarilaiset nimet kirjoitetaan itämaiseen järjestykseen — sukunimi ensin, etunimi toisena (Kovács Péter, ei Péter Kovács). Tämä on käänteinen länsieurooppalaiselle nimijärjestykselle. NLP-mallit, jotka on koulutettu englanninkielisten tai saksankielisten nimimallien mukaan, jotka olettavat etunimen olevan ensin, epäonnistuvat systemaattisesti unkarilaisten nimien tunnistamisessa.
Unkarin merkistösarja: Unkari käyttää ő, ű (kaksinkertaiset akuutit vokaalit) lisäksi ö, ü. Nämä merkit ovat erilaisia saksalaisista umlaut-merkeistä ja vaativat erillistä koodausta/tokenisaatiota. Asiakirjat, joissa on koodausinconsistensseja (Windows-1250 vs. UTF-8), aiheuttavat tunnistusongelmia.
Tulos: organisaatiot, jotka käyttävät englanninkielisiä tai saksankielisiä NLP-työkaluja unkarilaisten HR-tietojen, lääketieteellisten asiakirjojen tai asiakassopimusten käsittelyyn, jättävät unkarilaiset nimet huomiotta 33 % korkeammalla tahdilla kuin samoja työkaluja käytettäessä englanninkielisessä tai saksankielisessä tekstissä.
TAJ-Szám: Unkarin sosiaaliturvatunnus
TAJ-szám (Társadalombiztosítási Azonosító Jel) on Unkarin 9-numeroinen sosiaaliturvatunnus, joka on myönnetty kaikille unkarilaisille kansalaisille ja asukkaille. Se esiintyy:
- Terveydenhuollon rekisteröinnissä ja lääketieteellisissä asiakirjoissa
- Työsopimuksissa (pakollinen palkkalaskentaa varten)
- Sosiaalietuuksien rekisteröinnissä
- Eläketilitiedoissa
Tarkistussumma: TAJ-számin tarkistussumma lasketaan painotetun summan avulla: kerro numerot 1-8 vuorotellen painoilla (3,7,3,7,3,7,3,7), summataan, otetaan modulo 10. Tulos on tarkistussumma. Tämä algoritmi on unkarilaiskohtainen — ei sama Luhn-algoritmi, jota käytetään ruotsalaisessa personnummerissa tai SIN:ssä.
TAJ-szám havaitaan vain 61 % tarkkuudella yleisillä NLP-työkaluilla (NAIH 2024 arviointi). Pääasiallinen epäonnistuminen: 9-numeroinen muoto vastaa monia viitenumeroita unkarilaisissa asiakirjoissa, ja ilman TAJ-spesifistä tarkistussummaa työkalut eivät voi erottaa TAJ-numeroita vääristä positiivisista.
Adóazonosító Jel: Unkarin verotunnus
Adóazonosító jel on 10-numeroinen henkilökohtainen verotunnus (ei sekoitettava yrityksen veronumeroon, adószám). Muoto: 8XXXXXXXX, jossa ensimmäinen numero on aina 8 (vakio), jota seuraa 9 numeroa tarkistussummalla.
Tarkistussumman laskenta: kerro numerot 2-9 painoilla (9,7,3,1,9,7,3,1), summataan, otetaan modulo 10. Jos tulos on 0, tarkistussumma on 0. Muuten tarkistussumma on tulos.
Adóazonosító jel esiintyy työsuhdetiedoissa, verotuksessa, freelancer-sopimuksissa ja rahoituspalveluasiakirjoissa. NAIH:n valvonta on todennut sen usein puuttuvan HR-asiakirjoista, joita käsitellään ulkomailla konfiguroiduilla PII-työkaluilla.
NAIH:n AI-järjestelmän DPIA-vaatimus
NAIH:n 2024 ohjeistus vaatii täydellisen DPIA:n ennen minkään AI-järjestelmän käyttöönottoa, joka käsittelee henkilötietoja — tarkemmin kuin GDPR:n riskipohjainen lähestymistapa. DPIA:n on:
- Kuvaettava AI-mallin tietosyötteet (koulutusdata, päättelysyötteet) ja tulokset
- Dokumentoitava oikeudellinen peruste kaikelle henkilötietojen käsittelylle
- Arvioitava unkarinkielisen käsittelyn tarkkuus (NAIH vaatii erityisesti tarkkuusdokumentaatiota EU:n keskiarvon ulkopuolisille kielille)
- Sisältävä ihmisen tarkistusmekanismi automatisoiduille päätöksille
- Päivitettävä vuosittain, kun AI-järjestelmää koulutetaan uudelleen
Organisaatioille, jotka käyttävät AI-työkaluja unkarilaisten työntekijöiden, asiakkaiden tai kansalaisten tietojen käsittelyyn: NAIH:n pakollisen DPIA:n, 67 % NER-tarkkuusaukon, joka vaatii unkarille spesifisiä malleja, ja TAJ-szám- ja adóazonosító jelin tarkistussumman vahvistusvaatimusten yhdistelmä luo erottuvan teknisen vaatimustenmukaisuuden profiilin.
Lähteet: