NAIH Ungari: TAJ-szam ja GDPR tehnilised noudmised
Uuendatud 2026. aasta seisuga
Ungari andmekaitseasutus on NAIH. Selle 2024. aasta aruanne leidis, et NER-i tapsus ungari keele jaoks on vaid 67%. ELi keskmine on 82%. See lunk tekitab reaalse riski. Inglise voi saksa keele jaoks loodud tooriistad jatavad ungari identifikaatoreid vahele suures mahus.
Miks ungari NER-i tulemus on madal
Kolm ungari keele iseara rikuvad standardsed NLP-mudelid.
Aglutineerumine: Ungari keel lisab juursõnadele lõpusid. Sama nimi vottab lauses mitmeid vorme. 'Kovacs Peter' subjektpositsioonis muutub teises rollis kujule 'Kovacs Peternek'. NER-mudelid peavad siduma kõik need vormid ühele inimesele.
Nimejärjestus: Ungari keel paneb perekonnanime esimesele kohale. Enamik NLP-mudeleid ootab ees antud nime kõigepealt. See ümberpööramine põhjustab tuvastamata juhtumeid.
Erimärgid: Ungari keel kasutab tähti ő ja ű. Need ei ole samad mis saksa umlaute. Segakodeerimine — Windows-1250 vs UTF-8 — põhjustab samuti ebaõnnestumisi.
Need kolm tegurit selgitavad enamiku NAIH-i 2024. aasta aruande täpsuse lüngast.
TAJ-szam: Ungari sotsiaalkindlustuse number
TAJ-szam (Tarsadalombiztositasi Azonosito Jel) on 9-kohaline number. See esineb tervishoiu-, palga-, sotsiaaltoetuste ja pensionikandetes.
Kontrollsumma: Korrutatakse numbrid 1 kuni 8 kaaludega 3, 7, 3, 7, 3, 7, 3, 7. Summeeritakse tulemused. Võetakse modulo 10. See annab kontrollnumbri.
See algoritm on ainulaadne Ungarile. See ei ole sama kui teistes riikides kasutatav Luhn-algoritm.
Üldised tööriistad tuvastavad TAJ-szam-i vaid 61% tapsusega, vastavalt NAIH-i 2024. aasta aruandele. 9-kohaline formaat sarnaneb paljude teiste numbritega ungarikeelsetes dokumentides. Ilma kontrollsumma sammuta märgivad tööriistad valepositiivseid ja lasevad realseid vahele.
Adoazonosito Jel: Ungari maksu-ID
Adoazonosito jel on 10-kohaline isiklik maksunumber. Esimene number on alati 8. See esineb tooandmetel, maksudeklaratsioonidel ja finantsandmetel.
Kontrollsumma: Võetakse numbrid 2 kuni 9. Korrutatakse kaaludega 9, 7, 3, 1, 9, 7, 3, 1. Summeeritakse tulemused. Võetakse modulo 10. See on kontrollnumber. Tulemus 0 tähendab, et kontrollnumber on 0.
NAIH-i jõustamisjuhtumid näitavad, et seda numbrit jäetakse sageli personalidokumentides vahele, kui tööriistad on seadistatud teistele keeltele.
Vaadake meie ELi riiklikku maksu-ID juhendit selle kohta, kuidas need numbrid võrreldes liikmesriikidega.
NAIH-i DPIA nõue AI-süsteemidele
NAIH-i 2024. aasta juhend nõuab lõpetatud mõjuhindamist (DPIA) enne mis tahes AI-süsteemi isikuandmete töötlemist. See on rangem kui üldine GDPR-i test. DPIA peab hõlmama:
- Andmevood — koolitusandmed, sisendid ja väljundid
- Õiguslik alus — dokumenteeritud iga tegevuse jaoks
- Keele tapsus — nõutav ELi keskmisest madalama tasemega keelte puhul
- Inimkontroll — viis automatiseeritud otsuste kontrollimiseks
DPIA-d tuleb uuendada igal aastal, kui süsteem läbib uuesti koolituse.
Meeskondadele, kes võtavad kasutusele AI-tööriistu ungarikeelsetel andmetel, on järjestus fikseeritud: kõigepealt DPIA, siis kasutuselevaatus.
Minimaalsed tehnilised kontrollid
Kolm kontrolli moodustavad NAIH-i vastavuse lähtetaseme:
- TAJ-szam tuvastamine modulo-10 kontrollsummaga — ainult mustrite sobitamine ei ole piisav
- Adoazonosito jel tuvastamine kontrollsumma valideerimisega — kriitilise tahtsusega personalitoo ja rahanduse jaoks
- Ungari NER aglutinatsiooniga — peab käsitlema tähti ő, ű ja kodeerimise variante
Vaadake meie BfDI Saksamaa juhendit, et võrrelda Kesk-Euroopa andmekaitseasutuste tehnilisi nõudeid. Sarnase keelelise lünga kohta Kesk-Euroopas vaadake meie Tsehhi UOOU juhendit.