NAIH Vengrija: TAJ-szam ir BDAR techniniai reikalavimai
Atnaujinta 2026 m.
Vengrijos duomenų institucija yra NAIH. Jos 2024 m. ataskaita nustatė, kad NER tikslumas vengrų kalbai yra tik 67%. ES vidurkis -- 82%. Ši spraga sukuria realią riziką. Anglų ar vokiečių kalbai sukurti įrankiai praleidžia vengrų identifikatorius dideliu dažniu.
Kodėl vengrų kalbos NER rezultatai žemi
Trys vengrų kalbos savybės sulaužo standartinius NLP modelius.
Agliutinacija: Vengrų kalba prideda priesagas prie šakninių žodžių. Tas pats vardas sakinyje įgauna daug formų. Kovács Péter subjekto pozicijoje tampa Kovács Péternek kitoje rolėje. NER modeliai turi susieti visas tas formas su vienu asmeniu.
Vardų tvarka: Vengrų kalba pirma rašo pavardę. Dauguma NLP modelių tikisi pirmiausia matyti vardą. Tas apvertimas sukelia praleidimų.
Specialūs simboliai: Vengrų kalba naudoja ő ir ű. Tai nėra tas pats kaip vokiečių umliautai. Mišrus kodavimas -- Windows-1250 prieš UTF-8 -- taip pat sukelia gedimų.
Šie trys veiksniai paaiškina didžiąją tikslumo spragos dalį NAIH 2024 m. ataskaitoje.
TAJ-szam: Vengrijos socialinio draudimo numeris
TAJ-szam (Társadalombiztosítási Azonosító Jel) yra 9 skaitmenų numeris. Jis pasirodo sveikatos priežiūroje, darbo užmokestyje, socialinėse išmokose ir pensijų įrašuose.
Kontrolinė suma: 1 iki 8 skaitmenis padauginkite iš svorių 3, 7, 3, 7, 3, 7, 3, 7. Sudėkite rezultatus. Paimkite likutį po dalijimo iš 10. Tai kontrolinis skaitmuo.
Šis algoritmas yra unikalus Vengrijai. Jis nėra tas pats kaip Luhn algoritmas, naudojamas kitose šalyse.
Bendrieji įrankiai aptinka TAJ-szam tik 61% tikslumu pagal NAIH 2024 m. ataskaitą. 9 skaitmenų formatas atrodo kaip daugelis kitų skaičių vengrų dokumentuose. Be kontrolinės sumos žingsnio, įrankiai pažymi klaidingus teigiamus ir praleidžia tikrus.
Adóazonosító jel: Vengrijos mokesčių ID
Adóazonosító jel yra 10 skaitmenų asmeninis mokesčių numeris. Pirmasis skaitmuo visada yra 8. Jis pasirodo darbo įrašuose, mokesčių deklaracijose ir finansiniuose dokumentuose.
Kontrolinė suma: Imkite skaitmenis nuo 2 iki 9. Padauginkite iš svorių 9, 7, 3, 1, 9, 7, 3, 1. Sudėkite rezultatus. Paimkite likutį po dalijimo iš 10. Tai kontrolinis skaitmuo. Rezultatas 0 reiškia, kad kontrolinis skaitmuo yra 0.
NAIH vykdymo bylos rodo, kad šis numeris dažnai praleidžiamas personalo dokumentuose, kai įrankiai sukonfigūruoti kitoms kalboms.
Žr. mūsų ES nacionalinių mokesčių ID vadovą apie tai, kaip šie numeriai palyginti tarp valstybių narių.
NAIH DPTA reikalavimas dirbtinio intelekto sistemoms
NAIH 2024 m. rekomendacijos reikalauja užbaigto DPTA prieš bet kurią dirbtinio intelekto sistemą apdorojant asmens duomenis. Tai yra griežčiau nei bendrasis BDAR testas. DPTA turi apimti:
- Duomenų srautai -- mokymo duomenys, įvestys ir išvestys
- Teisinis pagrindas -- dokumentuotas kiekvienai veiklai
- Kalbos tikslumas -- reikalingas kalboms žemiau ES vidurkio
- Žmogaus peržiūra -- būdas patikrinti automatizuotus sprendimus
DPTA turi būti atnaujinamas kasmet, kai sistema yra permokoma.
Komandoms, diegiančioms dirbtinio intelekto įrankius vengrų duomenims, tvarka yra fiksuota: pirma DPTA, tada diegimas.
Minimalios techninės kontrolės priemonės
Trys kontrolės priemonės sudaro NAIH atitikties pagrindą:
- TAJ-szam aptikimas su modulio-10 kontroline suma -- šablonų atitikimas vienas pats nėra pakankamas
- Adóazonosító jel aptikimas su kontrolinės sumos tikrinimu -- labai svarbu personalo ir finansų sektoriams
- Vengrų NER su agliutinacijos palaikymu -- turi tvarkyti ő, ű ir kodavimo variantus
Žr. mūsų BFDI Vokietija vadovą, kad palygintumėte, kaip Vidurio Europos DPA nustato techninius reikalavimus. Dėl panašios kalbos spragos Vidurio Europoje žr. mūsų Čekijos UOOU vadovą.