NAIH Madjarska: TAJ-szam i GDPR tehnicki zahtevi
Azurirano za 2026.
Madjarski organ za zastitu podataka je NAIH. Izvestaj za 2024. pokazao je da je tacnost NER-a za madjarski jezik samo 67%. EU prosek je 82%. Ta praznina stvara pravi rizik. Alati napravljeni za engleski ili nemacki propustaju madjarskie identifikatore pri visokim stopama.
Zasto madjarski NER ima niske rezultate
Tri karakteristike madjarskog razaraju standardne NLP modele.
Aglutinacija: Madjarski dodaje sufikse korenskim recima. Isto ime dobija mnoge oblike u recenici. "Kovacs Peter" u ulozi subjekta postaje "Kovacs Peternek" u drugoj ulozi. NER modeli moraju sve te oblike povezati s jednom osobom.
Redosled u imenu: Madjarski stavlja prezime na prvo mesto. Vecina NLP modela ocekuje ime na prvom mestu. Ta inverzija uzrokuje propustene detekcije.
Posebni znaci: Madjarski koristi o i u. To nisu isti znaci kao nemacki preglasi. Mesovito kodiranje - Windows-1250 nasuprot UTF-8 - takodje uzrokuje greske.
Ova tri faktora objasnjivaju vecinu praznine u tacnosti u izvestaju NAIH za 2024.
TAJ-szam: Madjarski broj socijalnog osiguranja
TAJ-szam (Tarsadalombiztositasi Azonosito Jel) je 9-cifreni broj. Pojavljuje se u zdravstvenim, platnim, socijalnim i penzijskim evidencijama.
Kontrolna suma: Pomnozite cifre od 1 do 8 tezinama 3, 7, 3, 7, 3, 7, 3, 7. Saberite rezultate. Uzmite modulo 10. To daje kontrolnu cifru.
Ovaj algoritam je jedinstven za Madjarsku. Nije isti kao Luhn algoritam koji se koristi u drugim zemljama.
Genericki alati detektuju TAJ-szam sa samo 61% tacnoscu, prema izvestaju NAIH za 2024. Format sa 9 cifara lici na mnoge druge brojeve u madjarskim dokumentima. Bez koraka kontrolne sume, alati oznacavaju lazne pozitivne i propustaju prave.
Adoazonosito jel: Madjarski poreski ID
Adoazonosito jel je 10-cifreni licni poreski broj. Prva cifra je uvek 8. Pojavljuje se u evidencijama zaposlenih, poreskim prijavama i finansijskim dokumentima.
Kontrolna suma: Uzmite cifre od 2 do 9. Pomnozite tezinama 9, 7, 3, 1, 9, 7, 3, 1. Saberite rezultate. Uzmite modulo 10. To je kontrolna cifra. Rezultat 0 znaci da je kontrolna cifra 0.
Slucajevi primene NAIH pokazuju da se ovaj broj cesto propusta u HR dokumentima kada su alati podесени za druge jezike.
Pogledajte nas vodic za EU nacionalne poreske ID-jeve za poredjenje ovih brojeva po drzavama clanicama.
Zahtev NAIH za DPIA za AI sisteme
Smernice NAIH za 2024. zahtevaju dovrsenu DPIA pre nego sto bilo koji AI sistem obraduje licne podatke. Ovo je strozije od opsteg GDPR testa. DPIA mora pokriti:
- Tokovi podataka - podaci za obuku, ulazi i rezultati
- Pravna osnova - dokumentovana za svaku aktivnost
- Jezicka tacnost - obavezna za jezike ispod EU proseka
- Ljudski pregled - nacin provere automatizovanih odluka
DPIA mora biti azurirana svake godine kada se sistem ponovo trenira.
Za timove koji primenjuju AI alate na madjarskim podacima, redosled je fiksan: najpre DPIA, pa tek onda primena.
Minimalne tehnicke kontrole
Tri kontrole cine osnovu za uskladjenost sa NAIH:
- Detekcija TAJ-szama sa modulo-10 kontrolnom sumom - samo podudaranje obrazaca nije dovoljno
- Detekcija adoazonosito jel sa validacijom kontrolne sume - kljucno za HR i finansije
- Madjarski NER sa podrskon za aglutinaciju - mora obradivati o, u i varijante kodiranja
Pogledajte nas BFDI Nemacka vodic da uporedite kako centralno-evropski DPA organi postavljaju tehnicke zahteve. Za slic jezicku prazninu u centralnoj Evropi, pogledajte nas Ceski UOOU vodic.