anonym.legal
Takaisin BlogiinGDPR & Vaatimustenmukaisuus

NAIH Unkari: TAJ-Szám, Adóazonosító Jel ja miksi Unkarin NER-tarkkuus jää EU:n keskiarvon taakse

Unkarin NER-tarkkuus on 67 % verrattuna EU:n keskiarvoon 82 % — NAIH:n 2024 arviointi. TAJ-számin painotettu tarkistussumma ja adóazonosító jelin tunnistusaukot. NAIH vaatii DPIA:n kaikille AI-järjestelmille, jotka käsittelevät henkilötietoja.

March 7, 20267 min lukuaika
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Unkarin Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) julkaisi 2024 teknisen arvion, joka paljastaa, että unkarinkielisten NER-mallien tarkkuus on vain 67 % — verrattuna EU:n keskiarvoon 82 % suurille eurooppalaisille kielille. Tämä aukko vaikuttaa suoraan vaatimustenmukaisuuteen: organisaatiot, jotka käsittelevät unkarilaisia henkilötietoja saksalaisilla tai englanninkielisillä NLP-työkaluilla, jättävät systemaattisesti huomiotta unkarille spesifiset tunnisteet ja nimielementit.

67 % NER-tarkkuusaukko: mitä se tarkoittaa

Tarkkuusaukko unkarilaisten ja suurten eurooppalaisten kielten NER-mallien välillä johtuu rakenteellisista kielitieteellisistä syistä:

Unkarin morfologia: Unkari on agglutinoiva kieli — sanoja muodostetaan liittämällä suffikseja yhteen ilmaisemaan kieliopillisia suhteita, jotka englanti ilmaisee erillisillä sanoilla. Unkarilainen nimi lauseessa saa erilaisia kieliopillisia muotoja riippuen sen roolista: "Kovács Péter" (nominatiivi), "Kovács Péternek" (datiivi), "Kovács Pétertől" (ablatiivi). NER-mallien on tunnistettava sama nimi kymmenissä kieliopillisissa muodoissa.

Nimijärjestys: Unkarilaiset nimet kirjoitetaan itämaiseen järjestykseen — sukunimi ensin, etunimi toisena (Kovács Péter, ei Péter Kovács). Tämä on käänteinen länsieurooppalaiselle nimijärjestykselle. NLP-mallit, jotka on koulutettu englanninkielisten tai saksankielisten nimimallien mukaan, jotka olettavat etunimen olevan ensin, epäonnistuvat systemaattisesti unkarilaisten nimien tunnistamisessa.

Unkarin merkistösarja: Unkari käyttää ő, ű (kaksinkertaiset akuutit vokaalit) lisäksi ö, ü. Nämä merkit ovat erilaisia saksalaisista umlaut-merkeistä ja vaativat erillistä koodausta/tokenisaatiota. Asiakirjat, joissa on koodausinconsistensseja (Windows-1250 vs. UTF-8), aiheuttavat tunnistusongelmia.

Tulos: organisaatiot, jotka käyttävät englanninkielisiä tai saksankielisiä NLP-työkaluja unkarilaisten HR-tietojen, lääketieteellisten asiakirjojen tai asiakassopimusten käsittelyyn, jättävät unkarilaiset nimet huomiotta 33 % korkeammalla tahdilla kuin samoja työkaluja käytettäessä englanninkielisessä tai saksankielisessä tekstissä.

TAJ-Szám: Unkarin sosiaaliturvatunnus

TAJ-szám (Társadalombiztosítási Azonosító Jel) on Unkarin 9-numeroinen sosiaaliturvatunnus, joka on myönnetty kaikille unkarilaisille kansalaisille ja asukkaille. Se esiintyy:

  • Terveydenhuollon rekisteröinnissä ja lääketieteellisissä asiakirjoissa
  • Työsopimuksissa (pakollinen palkkalaskentaa varten)
  • Sosiaalietuuksien rekisteröinnissä
  • Eläketilitiedoissa

Tarkistussumma: TAJ-számin tarkistussumma lasketaan painotetun summan avulla: kerro numerot 1-8 vuorotellen painoilla (3,7,3,7,3,7,3,7), summataan, otetaan modulo 10. Tulos on tarkistussumma. Tämä algoritmi on unkarilaiskohtainen — ei sama Luhn-algoritmi, jota käytetään ruotsalaisessa personnummerissa tai SIN:ssä.

TAJ-szám havaitaan vain 61 % tarkkuudella yleisillä NLP-työkaluilla (NAIH 2024 arviointi). Pääasiallinen epäonnistuminen: 9-numeroinen muoto vastaa monia viitenumeroita unkarilaisissa asiakirjoissa, ja ilman TAJ-spesifistä tarkistussummaa työkalut eivät voi erottaa TAJ-numeroita vääristä positiivisista.

Adóazonosító Jel: Unkarin verotunnus

Adóazonosító jel on 10-numeroinen henkilökohtainen verotunnus (ei sekoitettava yrityksen veronumeroon, adószám). Muoto: 8XXXXXXXX, jossa ensimmäinen numero on aina 8 (vakio), jota seuraa 9 numeroa tarkistussummalla.

Tarkistussumman laskenta: kerro numerot 2-9 painoilla (9,7,3,1,9,7,3,1), summataan, otetaan modulo 10. Jos tulos on 0, tarkistussumma on 0. Muuten tarkistussumma on tulos.

Adóazonosító jel esiintyy työsuhdetiedoissa, verotuksessa, freelancer-sopimuksissa ja rahoituspalveluasiakirjoissa. NAIH:n valvonta on todennut sen usein puuttuvan HR-asiakirjoista, joita käsitellään ulkomailla konfiguroiduilla PII-työkaluilla.

NAIH:n AI-järjestelmän DPIA-vaatimus

NAIH:n 2024 ohjeistus vaatii täydellisen DPIA:n ennen minkään AI-järjestelmän käyttöönottoa, joka käsittelee henkilötietoja — tarkemmin kuin GDPR:n riskipohjainen lähestymistapa. DPIA:n on:

  • Kuvaettava AI-mallin tietosyötteet (koulutusdata, päättelysyötteet) ja tulokset
  • Dokumentoitava oikeudellinen peruste kaikelle henkilötietojen käsittelylle
  • Arvioitava unkarinkielisen käsittelyn tarkkuus (NAIH vaatii erityisesti tarkkuusdokumentaatiota EU:n keskiarvon ulkopuolisille kielille)
  • Sisältävä ihmisen tarkistusmekanismi automatisoiduille päätöksille
  • Päivitettävä vuosittain, kun AI-järjestelmää koulutetaan uudelleen

Organisaatioille, jotka käyttävät AI-työkaluja unkarilaisten työntekijöiden, asiakkaiden tai kansalaisten tietojen käsittelyyn: NAIH:n pakollisen DPIA:n, 67 % NER-tarkkuusaukon, joka vaatii unkarille spesifisiä malleja, ja TAJ-szám- ja adóazonosító jelin tarkistussumman vahvistusvaatimusten yhdistelmä luo erottuvan teknisen vaatimustenmukaisuuden profiilin.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.