NAIH Madzarska: TAJ-szam in tehnicne zahteve GDPR
Posodobljeno za leto 2026
Madzarski podatkovni organ je NAIH. Njegovo porocilo za leto 2024 je pokazalo, da je tocnost NER za madzarscino le 67 %. Povprecje EU je 82 %. Ta vrzel ustvarja resnicno tveganje. Orodja, zgrajena za anglescino ali nemscino, zamudijo madzarske identifikatorje pri visokih stopnjah.
Zakaj NER za madzarscino dosega nizke rezultate
Tri lastnosti madzarscine unicijo standardne modele NLP.
Aglutinacija: Madzarscina dodaja pripone k korenom besed. Isto ime zavzame mnoge oblike v stavku. 'Kovacs Peter' v polozaju subjekta postane 'Kovacs Peternek' v drugi vlogi. Modeli NER morajo vse te oblike povezati z eno osebo.
Vrstni red imen: Madzarscina postavi priimek na prvo mesto. Vecina modelov NLP pricakuje najprej krstno ime. Ta obrat povzroca zamudena zaznavanja.
Posebni znaki: Madzarscina uporablja o in u. Nista enaka nemskim preglasnim. Mesano kodiranje - Windows-1250 v primerjavi z UTF-8 - prav tako povzroca napake.
Ti trije dejavniki pojasnjujejo vecino vrzeli v tocnosti v porocilu NAIH za leto 2024.
TAJ-szam: Madzarska stevilka socialnega zavarovanja
TAJ-szam (Tarsadalombiztositasi Azonosito Jel) je 9-mestna stevilka. Pojavi se v zdravstvenih, placnih, socialnih in pokojninskih evidencah.
Kontrolna vsota: Stevke 1 do 8 pomnozimo s ponderji 3, 7, 3, 7, 3, 7, 3, 7. Sestejemo rezultate. Vzamemo modulo 10. To da kontrolno stevko.
Ta algoritem je unikaten za Madzarsko. Ni enak algoritmu Luhn, ki se uporablja v drugih drzavah.
Geneticna orodja zaznajo TAJ-szam le pri 61 % tocnosti, glede na porocilo NAIH 2024. 9-mestni format je videti kot mnoge druge stevilke v madzarskih dokumentih. Brez koraka s kontrolno vsoto orodja oznacijo lazno pozitivne in zamudijo prave.
Adoazonosito jel: Madzarska davcna stevilka
Adoazonosito jel je 10-mestna osebna davcna stevilka. Prva stevka je vedno 8. Pojavi se v evidencah zaposlenih, davcnih napovedih in financnih dokumentih.
Kontrolna vsota: Vzamemo stevke 2 do 9. Pomnozimo s ponderji 9, 7, 3, 1, 9, 7, 3, 1. Sestejemo rezultate. Vzamemo modulo 10. To je kontrolna stevka. Rezultat 0 pomeni, da je kontrolna stevka 0.
Primeri izvrsevalnih ukrepov NAIH kazejo, da je ta stevilka pogosto zamudena v kadrovskih dokumentih, ko so orodja nastavljena za druge jezike.
Za primerjavo teh stevilk med drzavami clanicami glejte nas vodnik za davcne ID EU.
Zahteva NAIH po DPIA za sisteme umetne inteligence
Smernice NAIH iz leta 2024 zahtevajo dokoncano DPIA pred tem, ko kateri koli sistem umetne inteligence obdeluje osebne podatke. To je strozje od splosnega testa GDPR. DPIA mora zajemati:
- Tokovi podatkov - ucni podatki, vnosi in izhodi
- Pravna podlaga - dokumentirana za vsako dejavnost
- Tocnost v jeziku - zahtevana za jezike pod povprecjem EU
- Clovekov pregled - nacin preverjanja avtomatiziranih odlocitev
DPIA je treba posodobiti vsako leto, ko je sistem ponovno usposobljen.
Za ekipe, ki uvajajo orodja umetne inteligence na madzarskih podatkih, je vrstni red fiksen: najprej DPIA, nato uvajanje.
Minimalni tehnicni nadzori
Tri kontrole tvorijo osnovo za skladnost z NAIH:
- Zaznavanje TAJ-szam s kontrolno vsoto modulo-10 - samo ujemanje vzorcev ni dovolj
- Zaznavanje adoazonosito jel z validacijo kontrolne vsote - kriticno za kadrovske in finance
- NER za madzarscino s podporo aglutinacije - mora obravnavati o, u in razlicicice kodiranja
Za primerjavo tehnicnih zahtev osrednjeevropskih organov za varstvo podatkov glejte nas vodnik BFDI Nemcija. Za podobno jezikovno vrzel v srednji Evropi glejte nas vodnik ceske UOOU.