Ungarns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) offentliggjorde en teknisk vurdering for 2024, der afslørede, at nøjagtigheden af ungarsk-sprogede NER-modeller kun når 67% — sammenlignet med EU-gennemsnittet på 82% for større europæiske sprog. Denne kløft påvirker direkte overholdelse: organisationer, der behandler ungarsk persondata med tyske eller engelske NLP-værktøjer, misser systematisk ungarsk-specifikke identifikatorer og navneenheder.
Kløften i NER-nøjagtighed på 67%: Hvad Det Betyder
Nøjagtighedskløften mellem ungarsk og større europæiske sprog NER-modeller har strukturelle sproglige årsager:
Ungarsk morfologi: Ungarsk er et agglutinerende sprog — ord dannes ved at sammenkæde suffikser for at udtrykke grammatiske relationer, som engelsk udtrykker gennem separate ord. Et ungarsk navn i en sætning tager forskellige grammatiske former afhængigt af dets rolle: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller skal genkende det samme navn på tværs af dusinvis af grammatiske former.
Navneorden: Ungarske navne skrives i østlig orden — efternavn først, fornavn sekund (Kovács Péter, ikke Péter Kovács). Dette er det modsatte af den vestlige europæiske navneorden. NLP-modeller trænet på engelske eller tyske navnemønstre, der antager fornavn-først orden, misser systematisk ungarske navne.
Ungarsk tegnsæt: Ungarsk bruger ő, ű (dobbelte akutte vokaler) ud over ö, ü. Disse tegn er forskellige fra tyske umlaut og kræver separat kodning/tokenisering. Dokumenter med kodningsinkonsistenser (Windows-1250 vs. UTF-8) skaber detektionsfejl.
Resultatet: organisationer, der bruger engelske eller tyske NLP-værktøjer til at behandle ungarsk HR-optegnelser, medicinske dokumenter eller kundekontrakter, misser ungarske navne med 33% højere rater end de samme værktøjer anvendt på engelsk eller tysk tekst.
TAJ-Szám: Ungarns Sociale Sikringsidentifikator
TAJ-szám (Társadalombiztosítási Azonosító Jel) er Ungarns 9-cifrede sociale sikringsidentifikationsnummer, tildelt alle ungarske borgere og beboere. Det fremgår af:
- Sundhedsregistrering og medicinske optegnelser
- Ansættelseskontrakter (obligatorisk for løn)
- Tilmelding til sociale ydelser
- Pensionskontooptegnelser
Kontrolsum: TAJ-szám kontrolciffer beregnes ved hjælp af en vægtet sum: multiplicer cifrene 1-8 med skiftende vægte (3,7,3,7,3,7,3,7), summér, tag modulo 10. Resultatet er kontrolcifferet. Denne algoritme er ungarsk-specifik — ikke den samme Luhn-algoritme, der bruges til svenske personnummer eller SIN.
TAJ-szám detekteres kun med 61% nøjagtighed af generiske NLP-værktøjer (NAIH 2024 vurdering). Den primære fejl: det 9-cifrede format matcher mange referencenumre i ungarske dokumenter, og uden den TAJ-specifikke kontrolsum kan værktøjer ikke skelne TAJ-numre fra falske positiver.
Adóazonosító Jel: Ungarns Skatteidentifikationsnummer
Adóazonosító jel er et 10-cifret individuelt skatteidentifikationsnummer (ikke at forveksle med virksomhedens skattenummer, adószám). Format: 8XXXXXXXX hvor det første ciffer altid er 8 (konstant), efterfulgt af 9 cifre med et kontrolciffer.
Beregning af kontrolciffer: multiplicer cifrene 2-9 med vægte (9,7,3,1,9,7,3,1), summér, tag modulo 10. Hvis resultatet er 0, er kontrolcifferet 0. Ellers er kontrolcifferet resultatet.
Adóazonosító jel fremgår af ansættelsesoptegnelser, skatteindberetninger, freelance kontrakt-aftaler og finansielle tjenestedokumenter. NAIH's håndhævelse har fundet, at det ofte bliver overset i HR-dokumenter behandlet af udenlandsk konfigurerede PII-værktøjer.
NAIHs AI System DPIA Krav
NAIH's 2024 vejledning kræver en udfyldt DPIA før implementering af ethvert AI-system, der behandler persondata — mere preskriptiv end GDPR's risikobaserede tilgang. DPIA'en skal:
- Beskrive AI-modellens datainput (træningsdata, inferensinput) og output
- Dokumentere det juridiske grundlag for enhver behandling af persondata
- Vurdere nøjagtigheden af ungarsk sprogbehandling (NAIH kræver specifikt nøjagtighedsdokumentation for ikke-EU-gennemsnitlige sprog)
- Inkludere en menneskelig gennemgangsmekanisme for automatiserede beslutninger
- Opdateres årligt, når AI-systemet genuddannes
For organisationer, der implementerer AI-værktøjer, der behandler ungarske medarbejder-, kunde- eller borgerdata: kombinationen af NAIHs obligatoriske DPIA, kløften i NER-nøjagtighed på 67% der kræver ungarsk-specifikke modeller, og kravene til kontrolsumvalidering af TAJ-szám og adóazonosító jel skaber en distinkt teknisk overholdelsesprofil.
Kilder: