Ungarns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) publiserte en teknisk vurdering for 2024 som avslører at nøyaktigheten til ungarskspråklige NER-modeller kun når 67 % — sammenlignet med EU-gjennomsnittet på 82 % for store europeiske språk. Dette gapet påvirker direkte overholdelse: organisasjoner som behandler ungarsk persondata med tyske eller engelske NLP-verktøy går systematisk glipp av ungarsk-spesifikke identifikatorer og navneenheter.
67 % NER Nøyaktighetsgap: Hva Det Betyr
Nøyaktighetsgapet mellom ungarsk og store europeiske språk NER-modeller har strukturelle språklige årsaker:
Ungarsk morfologi: Ungarsk er et agglutinerende språk — ord dannes ved å sette sammen suffikser for å uttrykke grammatiske forhold som engelsk uttrykker gjennom separate ord. Et ungarsk navn i en setning tar forskjellige grammatiske former avhengig av sin rolle: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller må gjenkjenne det samme navnet på tvers av dusinvis av grammatiske former.
Navnordre: Ungarske navn skrives i østlig rekkefølge — etternavn først, fornavn deretter (Kovács Péter, ikke Péter Kovács). Dette er det motsatte av vestlig europeisk navnordre. NLP-modeller trent på engelske eller tyske navnemønstre som antar fornavn-først rekkefølge mislykkes systematisk i å gjenkjenne ungarske navn.
Ungarsk tegnsett: Ungarsk bruker ő, ű (doble akutte vokaler) i tillegg til ö, ü. Disse tegnene er forskjellige fra tyske umlauter og krever separat koding/tokenisering. Dokumenter med kodingsinkonsekvenser (Windows-1250 vs. UTF-8) skaper deteksjonsfeil.
Resultatet: organisasjoner som bruker engelske eller tyske NLP-verktøy for å behandle ungarsk HR-dokumenter, medisinske dokumenter eller kundekontrakter går glipp av ungarske navn med 33 % høyere frekvenser enn de samme verktøyene brukt på engelsk eller tysk tekst.
TAJ-Szám: Ungarns Sosiale Sikkerhetsidentifikator
TAJ-szám (Társadalombiztosítási Azonosító Jel) er Ungarns 9-sifrede sosiale sikkerhetsidentifikasjonsnummer, tildelt alle ungarske borgere og innbyggere. Det vises i:
- Helseregistrering og medisinske journaler
- Ansettelseskontrakter (obligatorisk for lønn)
- Registrering for sosiale ytelser
- Pensjonskontoreferanser
Sjekksum: TAJ-szám sjekksiffer beregnes ved hjelp av en vektet sum: multipliser sifrene 1-8 med vekter som alternerer (3,7,3,7,3,7,3,7), summer, ta modulo 10. Resultatet er sjekksifferet. Denne algoritmen er ungarsk-spesifikk — ikke den samme Luhn-algoritmen som brukes for svenske personnummer eller SIN.
TAJ-szám oppdages med bare 61 % nøyaktighet av generiske NLP-verktøy (NAIH 2024 vurdering). Den primære feilen: det 9-sifrede formatet samsvarer med mange referansenummer i ungarske dokumenter, og uten den TAJ-spesifikke sjekksummen kan verktøy ikke skille TAJ-numre fra falske positiver.
Adóazonosító Jel: Ungarns Skatteidentifikasjonsnummer
Adóazonosító jel er et 10-sifret individuelt skatteidentifikasjonsnummer (ikke å forveksle med selskapsnummeret, adószám). Format: 8XXXXXXXX hvor det første sifferet alltid er 8 (konstant), etterfulgt av 9 sifre med et sjekksiffer.
Beregning av sjekksiffer: multipliser sifrene 2-9 med vekter (9,7,3,1,9,7,3,1), summer, ta modulo 10. Hvis resultatet er 0, er sjekksifferet 0. Ellers er sjekksifferet resultatet.
Adóazonosító jel vises i ansettelsesregistre, skatteinnleveringer, frilanskontrakter og dokumenter for finansielle tjenester. NAIHs håndhevelse har funnet at det ofte blir oversett i HR-dokumenter behandlet av utenlandsk konfigurerte PII-verktøy.
NAIHs AI System DPIA Krav
NAIHs veiledning for 2024 krever en fullført DPIA før implementering av noe AI-system som behandler personopplysninger — mer preskriptiv enn GDPRs risikobaserte tilnærming. DPIA må:
- Beskrive AI-modellens datainnganger (treningsdata, inferensinnganger) og utganger
- Dokumentere det juridiske grunnlaget for enhver behandling av personopplysninger
- Vurdere nøyaktigheten av ungarsk språkbehandling (NAIH krever spesifikt nøyaktighetsdokumentasjon for ikke-EU-gjennomsnittlige språk)
- Inkludere en menneskelig gjennomgangsmekanisme for automatiserte beslutninger
- Oppdateres årlig når AI-systemet blir retrent
For organisasjoner som implementerer AI-verktøy som behandler ungarske ansatte, kunder eller borgerdata: kombinasjonen av NAIHs obligatoriske DPIA, 67 % NER-nøyaktighetsgapet som krever ungarsk-spesifikke modeller, og kravene til sjekksumvalidering for TAJ-szám og adóazonosító jel skaper en distinkt teknisk overholdelsesprofil.
Kilder: