NAIH Ungarn: TAJ-szám og GDPR tekniske krav
Oppdatert for 2026
Ungarns datatilsynsmyndighet er NAIH. Rapporten fra 2024 fant at NER-nøyaktighet for ungarsk er bare 67%. EU-gjennomsnittet er 82%. Det gapet skaper reell risiko. Verktøy bygget for engelsk eller tysk bommer på ungarske identifikatorer i høy grad.
Hvorfor ungarsk NER scorer lavt
Tre egenskaper ved ungarsk bryter standard NLP-modeller.
Agglutinasjon: Ungarsk legger suffikser til rotord. Samme navn tar mange former i en setning. "Kovács Péter" i subjektsposisjon blir "Kovács Péternek" i en annen rolle. NER-modeller må koble alle disse formene til én person.
Navneorden: Ungarsk setter etternavn først. De fleste NLP-modeller forventer fornavn først. Den omvendte rekkefølgen fører til manglende deteksjoner.
Spesialtegn: Ungarsk bruker o med dobbelt akutt (o med to prikker oppover) og u med dobbelt akutt. Disse er ikke det samme som tyske umlaut. Blandet koding — Windows-1250 mot UTF-8 — forårsaker også feil.
Disse tre faktorene forklarer det meste av nøyaktighetsgapet i NAIHs rapport fra 2024.
TAJ-szám: Ungarns trygdenummer
TAJ-szám (Társadalombiztosítási Azonosító Jel) er et 9-sifret nummer. Det forekommer i helsevesen, lønn, sosiale ytelser og pensjonsregistre.
Sjekksum: Multipliser siffer 1 til 8 med vektene 3, 7, 3, 7, 3, 7, 3, 7. Legg sammen resultatene. Ta modulo 10. Det gir kontrollsifferet.
Denne algoritmen er unik for Ungarn. Den er ikke den samme som Luhn-algoritmen brukt i andre land.
Generiske verktøy detekterer TAJ-szám med bare 61% nøyaktighet, i henhold til NAIH 2024-rapporten. Det 9-sifrede formatet ligner mange andre tall i ungarske dokumenter. Uten sjekksumsteget flagger verktøy falske positiver og bommer på ekte.
Adóazonosító jel: Ungarns skatte-ID
Adóazonosító jel er et 10-sifret personlig skattenummer. Det første sifferet er alltid 8. Det forekommer i ansettelsesregistre, skattemeldinger og finansdokumenter.
Sjekksum: Ta siffer 2 til 9. Multipliser med vektene 9, 7, 3, 1, 9, 7, 3, 1. Legg sammen resultatene. Ta modulo 10. Det er kontrollsifferet. Et resultat på 0 betyr at kontrollsifferet er 0.
NAIH-håndhevingssaker viser at dette nummeret ofte overses i HR-dokumenter når verktøy er satt opp for andre språk.
Se vår EU-guide for nasjonale skatte-ID-er for hvordan disse numrene sammenlignes på tvers av medlemsstatene.
NAIHs DPIA-krav for AI-systemer
NAIHs veiledning fra 2024 krever en fullført DPIA før noe AI-system behandler personopplysninger. Dette er strengere enn den generelle GDPR-testen. DPIA-en må dekke:
- Dataflyter — treningsdata, inndata og utdata
- Rettslig grunnlag — dokumentert for hver aktivitet
- Språknøyaktighet — kreves for språk under EU-gjennomsnittet
- Menneskelig gjennomgang — en måte å kontrollere automatiserte beslutninger på
DPIA-en må oppdateres hvert år når systemet trenes på nytt.
For team som ruller ut AI-verktøy på ungarske data, er rekkefølgen fast: DPIA først, deretter utrulling.
Minimum tekniske kontroller
Tre kontroller utgjør grunnlinjen for NAIH-overholdelse:
- TAJ-szám-deteksjon med modulo-10-sjekksum — mønstermatching alene er ikke nok
- Adóazonosító jel-deteksjon med sjekksumvalidering — kritisk for HR og finans
- Ungarsk NER med agglutinasjonsstøtte — må håndtere ő, ű og kodingsvarianter
Se vår BFDI Tysklands guide for å sammenligne hvordan sentraleuropeiske datatilsyn setter tekniske krav. For et lignende språkgap i Sentral-Europa, se vår tsjekkisk ÚOOÚ-guide.