NAIH Węgry: TAJ-szám i wymogi techniczne RODO
Aktualizacja 2026
Węgierski organ ochrony danych to NAIH. Jego raport z 2024 r. wykazał, że dokładność NER dla języka węgierskiego wynosi zaledwie 67%. Unijna średnia to 82%. Ta luka stwarza realne ryzyko. Narzędzia opracowane z myślą o języku angielskim lub niemieckim pomijają węgierskie identyfikatory z wysoką częstotliwością.
Dlaczego NER dla języka węgierskiego osiąga słabsze wyniki
Trzy cechy języka węgierskiego przełamują standardowe modele NLP.
Aglutynacja: Węgierski dodaje sufiksy do rdzeni słów. To samo imię przybiera wiele form w zdaniu. „Kovács Péter” w mianowniku staje się „Kovács Péternek” w innym przypadku. Modele NER muszą powiązać wszystkie te formy z jedną osobą.
Kolejność imion: W języku węgierskim nazwisko poprzedza imię. Większość modeli NLP spodziewa się najpierw imienia. To odwrócenie prowadzi do niewychwyconych detekcji.
Znaki specjalne: Węgierski używa ő i ű. Nie są to te same znaki co niemieckie umlauty. Mieszane kodowanie – Windows-1250 kontra UTF-8 – również powoduje błędy.
Te trzy czynniki wyjaśniają większość luki w dokładności odnotowanej w raporcie NAIH z 2024 r.
TAJ-szám: węgierski numer ubezpieczenia społecznego
TAJ-szám (Társadalombiztosítási Azonosító Jel) to 9-cyfrowy numer. Pojawia się w dokumentach medycznych, płacowych, zasiłkowych i emerytalnych.
Suma kontrolna: Cyfry od 1 do 8 mnożone są przez wagi 3, 7, 3, 7, 3, 7, 3, 7. Wyniki są sumowane. Wynik modulo 10 daje cyfrę kontrolną.
Algorytm ten jest unikatowy dla Węgier. Nie jest tożsamy z algorytmem Luhna stosowanym w innych krajach.
Narzędzia ogólnego zastosowania wykrywają TAJ-szám z dokładnością zaledwie 61% – wynika to z raportu NAIH 2024. Format 9-cyfrowy przypomina wiele innych liczb w dokumentach węgierskich. Bez kroku weryfikacji sumy kontrolnej narzędzia generują fałszywe pozytywne wyniki i pomijają prawdziwe identyfikatory.
Adóazonosító jel: węgierski numer identyfikacji podatkowej
Adóazonosító jel to 10-cyfrowy osobowy numer podatkowy. Pierwsza cyfra wynosi zawsze 8. Pojawia się w dokumentach kadrowych, zeznaniach podatkowych i dokumentacji finansowej.
Suma kontrolna: Cyfry od 2 do 9 mnożone są przez wagi 9, 7, 3, 1, 9, 7, 3, 1. Wyniki są sumowane. Wynik modulo 10 daje cyfrę kontrolną. Wynik 0 oznacza, że cyfra kontrolna wynosi 0.
Sprawy egzekucyjne NAIH pokazują, że numer ten jest często pomijany w dokumentach kadrowych, gdy narzędzia są skonfigurowane dla innych języków.
Zobacz nasz przewodnik po unijnych numerach identyfikacji podatkowej, aby porównać te numery w państwach członkowskich.
Wymóg DPIA dla systemów AI według NAIH
Wytyczne NAIH z 2024 r. wymagają przeprowadzenia i ukończenia DPIA przed uruchomieniem jakiegokolwiek systemu AI przetwarzającego dane osobowe. Jest to wymóg surowszy niż ogólny test RODO. DPIA musi obejmować:
- Przepływy danych – dane treningowe, dane wejściowe i wyjściowe
- Podstawa prawna – udokumentowana dla każdej czynności
- Dokładność językowa – wymagana dla języków poniżej unijnej średniej
- Weryfikacja człowieka – mechanizm kontroli automatycznych decyzji
DPIA musi być aktualizowana każdego roku przy ponownym trenowaniu systemu.
Dla zespołów wdrażających narzędzia AI na danych węgierskich kolejność jest stała: najpierw DPIA, potem wdrożenie.
Minimalne wymagania techniczne
Trzy mechanizmy kontrolne stanowią punkt wyjścia dla zgodności z NAIH:
- Wykrywanie TAJ-szám z walidacją sumy kontrolnej modulo 10 – samo dopasowanie wzorców jest niewystarczające
- Wykrywanie adóazonosító jel z walidacją sumy kontrolnej – krytyczne dla działu HR i finansów
- Węgierski NER ze wsparciem aglutynacji – musi obsługiwać ő, ű i warianty kodowania
Zobacz nasz przewodnik BFDI Niemcy, aby porównać sposoby, w jakie centralne europejskie organy ochrony danych stawiają wymagania techniczne. W przypadku podobnej luki językowej w Europie Środkowej zapoznaj się z naszym przewodnikiem ÚOOÚ Czechy.