Tilbage til BlogGDPR & Overholdelse

NAIH Ungarn: TAJ-Szám, Adóazonosító Jel, og Hvorfor Ungarsk NER Nøjagtighed Er Lavere End EU-Gennemsnittet

Ungarsk NER nøjagtighed er 67% vs. EU-gennemsnit 82% — NAIHs vurdering for 2024. TAJ-szám vægtet kontrolsum og adóazonosító jel detektionshuller. NAIH kræver DPIA for alle AI-systemer, der behandler persondata.

March 7, 20267 min læsning
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Ungarns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) offentliggjorde en teknisk vurdering for 2024, der afslørede, at nøjagtigheden af ungarsk-sprogede NER-modeller kun når 67% — sammenlignet med EU-gennemsnittet på 82% for større europæiske sprog. Denne kløft påvirker direkte overholdelse: organisationer, der behandler ungarsk persondata med tyske eller engelske NLP-værktøjer, misser systematisk ungarsk-specifikke identifikatorer og navneenheder.

Kløften i NER-nøjagtighed på 67%: Hvad Det Betyder

Nøjagtighedskløften mellem ungarsk og større europæiske sprog NER-modeller har strukturelle sproglige årsager:

Ungarsk morfologi: Ungarsk er et agglutinerende sprog — ord dannes ved at sammenkæde suffikser for at udtrykke grammatiske relationer, som engelsk udtrykker gennem separate ord. Et ungarsk navn i en sætning tager forskellige grammatiske former afhængigt af dets rolle: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller skal genkende det samme navn på tværs af dusinvis af grammatiske former.

Navneorden: Ungarske navne skrives i østlig orden — efternavn først, fornavn sekund (Kovács Péter, ikke Péter Kovács). Dette er det modsatte af den vestlige europæiske navneorden. NLP-modeller trænet på engelske eller tyske navnemønstre, der antager fornavn-først orden, misser systematisk ungarske navne.

Ungarsk tegnsæt: Ungarsk bruger ő, ű (dobbelte akutte vokaler) ud over ö, ü. Disse tegn er forskellige fra tyske umlaut og kræver separat kodning/tokenisering. Dokumenter med kodningsinkonsistenser (Windows-1250 vs. UTF-8) skaber detektionsfejl.

Resultatet: organisationer, der bruger engelske eller tyske NLP-værktøjer til at behandle ungarsk HR-optegnelser, medicinske dokumenter eller kundekontrakter, misser ungarske navne med 33% højere rater end de samme værktøjer anvendt på engelsk eller tysk tekst.

TAJ-Szám: Ungarns Sociale Sikringsidentifikator

TAJ-szám (Társadalombiztosítási Azonosító Jel) er Ungarns 9-cifrede sociale sikringsidentifikationsnummer, tildelt alle ungarske borgere og beboere. Det fremgår af:

  • Sundhedsregistrering og medicinske optegnelser
  • Ansættelseskontrakter (obligatorisk for løn)
  • Tilmelding til sociale ydelser
  • Pensionskontooptegnelser

Kontrolsum: TAJ-szám kontrolciffer beregnes ved hjælp af en vægtet sum: multiplicer cifrene 1-8 med skiftende vægte (3,7,3,7,3,7,3,7), summér, tag modulo 10. Resultatet er kontrolcifferet. Denne algoritme er ungarsk-specifik — ikke den samme Luhn-algoritme, der bruges til svenske personnummer eller SIN.

TAJ-szám detekteres kun med 61% nøjagtighed af generiske NLP-værktøjer (NAIH 2024 vurdering). Den primære fejl: det 9-cifrede format matcher mange referencenumre i ungarske dokumenter, og uden den TAJ-specifikke kontrolsum kan værktøjer ikke skelne TAJ-numre fra falske positiver.

Adóazonosító Jel: Ungarns Skatteidentifikationsnummer

Adóazonosító jel er et 10-cifret individuelt skatteidentifikationsnummer (ikke at forveksle med virksomhedens skattenummer, adószám). Format: 8XXXXXXXX hvor det første ciffer altid er 8 (konstant), efterfulgt af 9 cifre med et kontrolciffer.

Beregning af kontrolciffer: multiplicer cifrene 2-9 med vægte (9,7,3,1,9,7,3,1), summér, tag modulo 10. Hvis resultatet er 0, er kontrolcifferet 0. Ellers er kontrolcifferet resultatet.

Adóazonosító jel fremgår af ansættelsesoptegnelser, skatteindberetninger, freelance kontrakt-aftaler og finansielle tjenestedokumenter. NAIH's håndhævelse har fundet, at det ofte bliver overset i HR-dokumenter behandlet af udenlandsk konfigurerede PII-værktøjer.

NAIHs AI System DPIA Krav

NAIH's 2024 vejledning kræver en udfyldt DPIA før implementering af ethvert AI-system, der behandler persondata — mere preskriptiv end GDPR's risikobaserede tilgang. DPIA'en skal:

  • Beskrive AI-modellens datainput (træningsdata, inferensinput) og output
  • Dokumentere det juridiske grundlag for enhver behandling af persondata
  • Vurdere nøjagtigheden af ungarsk sprogbehandling (NAIH kræver specifikt nøjagtighedsdokumentation for ikke-EU-gennemsnitlige sprog)
  • Inkludere en menneskelig gennemgangsmekanisme for automatiserede beslutninger
  • Opdateres årligt, når AI-systemet genuddannes

For organisationer, der implementerer AI-værktøjer, der behandler ungarske medarbejder-, kunde- eller borgerdata: kombinationen af NAIHs obligatoriske DPIA, kløften i NER-nøjagtighed på 67% der kræver ungarsk-specifikke modeller, og kravene til kontrolsumvalidering af TAJ-szám og adóazonosító jel skaber en distinkt teknisk overholdelsesprofil.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.