Tilbake til BloggGDPR & Overholdelse

NAIH Ungarn: TAJ-Szám, Adóazonosító Jel, og Hvorfor Ungarsk NER Nøyaktighet Ligger Bak EU Gjennomsnittet

Ungarsk NER-nøyaktighet er 67 % mot EU-gjennomsnittet 82 % — NAIHs vurdering for 2024. TAJ-szám vektet sjekksum og adóazonosító jel deteksjonsgap. NAIH krever DPIA for alle AI-systemer som behandler personopplysninger.

March 7, 20267 min lesing
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Ungarns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) publiserte en teknisk vurdering for 2024 som avslører at nøyaktigheten til ungarskspråklige NER-modeller kun når 67 % — sammenlignet med EU-gjennomsnittet på 82 % for store europeiske språk. Dette gapet påvirker direkte overholdelse: organisasjoner som behandler ungarsk persondata med tyske eller engelske NLP-verktøy går systematisk glipp av ungarsk-spesifikke identifikatorer og navneenheter.

67 % NER Nøyaktighetsgap: Hva Det Betyr

Nøyaktighetsgapet mellom ungarsk og store europeiske språk NER-modeller har strukturelle språklige årsaker:

Ungarsk morfologi: Ungarsk er et agglutinerende språk — ord dannes ved å sette sammen suffikser for å uttrykke grammatiske forhold som engelsk uttrykker gjennom separate ord. Et ungarsk navn i en setning tar forskjellige grammatiske former avhengig av sin rolle: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller må gjenkjenne det samme navnet på tvers av dusinvis av grammatiske former.

Navnordre: Ungarske navn skrives i østlig rekkefølge — etternavn først, fornavn deretter (Kovács Péter, ikke Péter Kovács). Dette er det motsatte av vestlig europeisk navnordre. NLP-modeller trent på engelske eller tyske navnemønstre som antar fornavn-først rekkefølge mislykkes systematisk i å gjenkjenne ungarske navn.

Ungarsk tegnsett: Ungarsk bruker ő, ű (doble akutte vokaler) i tillegg til ö, ü. Disse tegnene er forskjellige fra tyske umlauter og krever separat koding/tokenisering. Dokumenter med kodingsinkonsekvenser (Windows-1250 vs. UTF-8) skaper deteksjonsfeil.

Resultatet: organisasjoner som bruker engelske eller tyske NLP-verktøy for å behandle ungarsk HR-dokumenter, medisinske dokumenter eller kundekontrakter går glipp av ungarske navn med 33 % høyere frekvenser enn de samme verktøyene brukt på engelsk eller tysk tekst.

TAJ-Szám: Ungarns Sosiale Sikkerhetsidentifikator

TAJ-szám (Társadalombiztosítási Azonosító Jel) er Ungarns 9-sifrede sosiale sikkerhetsidentifikasjonsnummer, tildelt alle ungarske borgere og innbyggere. Det vises i:

  • Helseregistrering og medisinske journaler
  • Ansettelseskontrakter (obligatorisk for lønn)
  • Registrering for sosiale ytelser
  • Pensjonskontoreferanser

Sjekksum: TAJ-szám sjekksiffer beregnes ved hjelp av en vektet sum: multipliser sifrene 1-8 med vekter som alternerer (3,7,3,7,3,7,3,7), summer, ta modulo 10. Resultatet er sjekksifferet. Denne algoritmen er ungarsk-spesifikk — ikke den samme Luhn-algoritmen som brukes for svenske personnummer eller SIN.

TAJ-szám oppdages med bare 61 % nøyaktighet av generiske NLP-verktøy (NAIH 2024 vurdering). Den primære feilen: det 9-sifrede formatet samsvarer med mange referansenummer i ungarske dokumenter, og uten den TAJ-spesifikke sjekksummen kan verktøy ikke skille TAJ-numre fra falske positiver.

Adóazonosító Jel: Ungarns Skatteidentifikasjonsnummer

Adóazonosító jel er et 10-sifret individuelt skatteidentifikasjonsnummer (ikke å forveksle med selskapsnummeret, adószám). Format: 8XXXXXXXX hvor det første sifferet alltid er 8 (konstant), etterfulgt av 9 sifre med et sjekksiffer.

Beregning av sjekksiffer: multipliser sifrene 2-9 med vekter (9,7,3,1,9,7,3,1), summer, ta modulo 10. Hvis resultatet er 0, er sjekksifferet 0. Ellers er sjekksifferet resultatet.

Adóazonosító jel vises i ansettelsesregistre, skatteinnleveringer, frilanskontrakter og dokumenter for finansielle tjenester. NAIHs håndhevelse har funnet at det ofte blir oversett i HR-dokumenter behandlet av utenlandsk konfigurerte PII-verktøy.

NAIHs AI System DPIA Krav

NAIHs veiledning for 2024 krever en fullført DPIA før implementering av noe AI-system som behandler personopplysninger — mer preskriptiv enn GDPRs risikobaserte tilnærming. DPIA må:

  • Beskrive AI-modellens datainnganger (treningsdata, inferensinnganger) og utganger
  • Dokumentere det juridiske grunnlaget for enhver behandling av personopplysninger
  • Vurdere nøyaktigheten av ungarsk språkbehandling (NAIH krever spesifikt nøyaktighetsdokumentasjon for ikke-EU-gjennomsnittlige språk)
  • Inkludere en menneskelig gjennomgangsmekanisme for automatiserte beslutninger
  • Oppdateres årlig når AI-systemet blir retrent

For organisasjoner som implementerer AI-verktøy som behandler ungarske ansatte, kunder eller borgerdata: kombinasjonen av NAIHs obligatoriske DPIA, 67 % NER-nøyaktighetsgapet som krever ungarsk-spesifikke modeller, og kravene til sjekksumvalidering for TAJ-szám og adóazonosító jel skaper en distinkt teknisk overholdelsesprofil.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.