NAIH Magyarország: TAJ-szám és GDPR technikai követelmények
Frissítve 2026-ra
Magyarország adatvédelmi hatósága a NAIH. A 2024-es jelentése megállapítja, hogy a magyar NER-pontosság csupán 67%, miközben az EU átlaga 82%. Ez a különbség valós kockázatot jelent: az angolhoz vagy némethez épített eszközök magas arányban tévesztik el a magyar azonosítókat.
Miért alacsony a magyar NER-pontosság?
Három sajátosság teszi a magyar nyelvet kihívássá a szokványos NLP-modellek számára.
Agglutináció: A magyar szuffixumokat fűz a tőszavakhoz. Ugyanaz a név számos alakban jelenhet meg egy mondatban. A Kovács Péter alanyesetben Kovács Péternek lesz más szerepben. Az NER-modelleknek ezeket az alakokat egyetlen személyhez kell kapcsolniuk.
Névsorend: A magyarban a vezetéknév áll elől. A legtöbb NLP-modell a keresztnevet várja előre. Ez a felcserélés sok kihagyott detektálást okoz.
Speciális karakterek: A magyar az ő és ű betűt használ. Ezek nem azonosak a német umlauttokkal. A Windows-1250 és az UTF-8 kódolás keveredése is hibákat okoz.
E három tényező magyarázza a NAIH 2024-es jelentésében szereplő pontossági hiány nagy részét.
TAJ-szám: Magyarország társadalombiztosítási azonosítója
A TAJ-szám (Társadalombiztosítási Azonosító Jel) egy 9 jegyű szám, amely egészségügyi, bérszámfejtési, szociális juttatási és nyugdíj-nyilvántartásokban szerepel.
Ellenőrzőszám: Az 1–8. jegyeket a 3, 7, 3, 7, 3, 7, 3, 7 súlyokkal kell megszorozni. Az eredményeket összeadjuk, majd 10-zel osztjuk. Az így kapott maradék az ellenőrző jegy.
Ez az algoritmus egyedi Magyarországra; nem azonos más országokban használt Luhn-algoritmussal.
Az általános eszközök a TAJ-számot csupán 61%-os pontossággal azonosítják, a NAIH 2024-es jelentése szerint. A 9 jegyű formátum hasonlít sok más számra a magyar dokumentumokban. Az ellenőrzőszám-vizsgálat nélkül az eszközök hamis pozitívokat produkálnak, és valódi TAJ-számokat tévesztenek el.
Adóazonosító jel: Magyarország személyi adószáma
Az adóazonosító jel egy 10 jegyű személyi adószám, amelynek első számjegye mindig 8. Munkaügyi nyilvántartásokban, adóbevallásokon és pénzügyi dokumentumokban szerepel.
Ellenőrzőszám: A 2–9. jegyeket a 9, 7, 3, 1, 9, 7, 3, 1 súlyokkal kell megszorozni. Az eredményeket összeadjuk, majd 10-zel osztjuk. Az így kapott maradék az ellenőrző jegy. Ha a maradék 0, az ellenőrző jegy is 0.
A NAIH végrehajtási ügyei azt mutatják, hogy ezt a számot más nyelvekre konfigurált eszközök rendszeresen tévesztik el HR-dokumentumokban.
A NAIH DPIA-követelménye AI-rendszerekhez
A NAIH 2024-es útmutatása megköveteli, hogy bármely személyes adatot feldolgozó AI-rendszer esetén a DPIA-t az üzembe helyezés előtt el kell végezni. Ez szigorúbb az általános GDPR-tesztnél. A DPIA-nak a következőket kell lefednie:
- Adatfolyamok – tanítási adatok, bemenetek és kimenetek
- Jogalap – minden tevékenységre dokumentálva
- Nyelvi pontosság – kötelező az EU-átlag alatti nyelvek esetén
- Emberi felülvizsgálat – automatizált döntések ellenőrzési lehetősége
A DPIA-t évente frissíteni kell, ha a rendszert újra tanítják.
Az AI-eszközöket magyar adatokon alkalmazó csapatok számára a sorrend rögzített: előbb DPIA, majd üzembe helyezés.
Minimális technikai intézkedések
Három intézkedés alkotja a NAIH-megfelelőség alapját:
- TAJ-szám azonosítás modulo-10 ellenőrzőszámmal – mintaazonosítás önmagában nem elegendő
- Adóazonosító jel azonosítás ellenőrzőszám-validációval – kritikus HR- és pénzügyi dokumentumokban
- Magyar NER agglutinatív morfológia-kezeléssel – az ő, ű karaktereket és kódolási változatokat egyaránt fedni kell