Ungerns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) publicerade en teknisk bedömning för 2024 som avslöjar att noggrannheten för ungerska NER-modeller endast når 67% — jämfört med EU-genomsnittet på 82% för stora europeiska språk. Denna lucka påverkar direkt efterlevnaden: organisationer som behandlar ungerska personuppgifter med tyska eller engelska NLP-verktyg missar systematiskt ungerskspecifika identifierare och namngivna entiteter.
Luckan i NER-noggrannhet på 67%: Vad Det Betyder
Noggrannhetsluckan mellan ungerska och stora europeiska språk NER-modeller har strukturella språkliga orsaker:
Ungersk morfologi: Ungerska är ett agglutinerande språk — ord bildas genom att sammanfoga suffix för att uttrycka grammatiska relationer som engelska uttrycker genom separata ord. Ett ungerskt namn i en mening tar olika grammatiska former beroende på dess roll: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller måste känna igen samma namn över dussintals grammatiska former.
Namnordning: Ungerska namn skrivs i östlig ordning — efternamn först, förnamn andra (Kovács Péter, inte Péter Kovács). Detta är motsatsen till västeuropeisk namnordning. NLP-modeller som tränats på engelska eller tyska namn mönster som antar förnamn-först ordning misslyckas systematiskt med att känna igen ungerska namn.
Ungerskt teckensystem: Ungerska använder ő, ű (dubbel-ackuta vokaler) utöver ö, ü. Dessa tecken är distinkta från tyska umlaut och kräver separat kodning/tokenisering. Dokument med kodningsinkonsekvenser (Windows-1250 vs. UTF-8) skapar detekteringsfel.
Resultatet: organisationer som använder engelska eller tyska NLP-verktyg för att bearbeta ungerska HR-poster, medicinska dokument eller kundkontrakt missar ungerska namn med 33% högre frekvens än samma verktyg som tillämpas på engelska eller tyska texter.
TAJ-Szám: Ungerns Socialförsäkringsidentifierare
TAJ-szám (Társadalombiztosítási Azonosító Jel) är Ungerns 9-siffriga socialförsäkringsidentifieringsnummer, tilldelat alla ungerska medborgare och invånare. Det förekommer i:
- Sjukvårdsregistrering och medicinska journaler
- Anställningskontrakt (obligatoriskt för löneutbetalning)
- Registrering för sociala förmåner
- Pensionskonton
Kontrollsiffra: TAJ-szám kontrollsiffra beräknas med en viktad summa: multiplicera siffrorna 1-8 med växlande vikter (3,7,3,7,3,7,3,7), summera, ta modulo 10. Resultatet är kontrollsiffran. Denna algoritm är ungersk-specifik — inte samma Luhn-algoritm som används för svenska personnummer eller SIN.
TAJ-szám upptäcktes med endast 61% noggrannhet av generiska NLP-verktyg (NAIH 2024 bedömning). Den primära misslyckandet: det 9-siffriga formatet matchar många referensnummer i ungerska dokument, och utan den TAJ-specifika kontrollsiffran kan verktyg inte särskilja TAJ-nummer från falska positiva.
Adóazonosító Jel: Ungerns Skatteidentifieringsnummer
Adóazonosító jel är ett 10-siffrigt individuellt skatteidentifieringsnummer (inte att förväxla med företags skattenummer, adószám). Format: 8XXXXXXXX där den första siffran alltid är 8 (konstant), följt av 9 siffror med en kontrollsiffra.
Beräkning av kontrollsiffra: multiplicera siffrorna 2-9 med vikter (9,7,3,1,9,7,3,1), summera, ta modulo 10. Om resultatet är 0, är kontrollsiffran 0. Annars är kontrollsiffran resultatet.
Adóazonosító jel förekommer i anställningsregister, skattedeklarationer, avtal med frilansande entreprenörer och dokument för finansiella tjänster. NAIH:s tillsyn har funnit att den ofta missas i HR-dokument som behandlas av utländskt konfigurerade PII-verktyg.
NAIH:s AI-system DPIA-krav
NAIH:s vägledning för 2024 kräver en slutförd DPIA innan något AI-system som behandlar personuppgifter implementeras — mer preskriptiv än GDPR:s riskbaserade tillvägagångssätt. DPIA:n måste:
- Beskriva AI-modellens datainmatningar (träningsdata, inferensinmatningar) och utdata
- Dokumentera den rättsliga grunden för all behandling av personuppgifter
- Bedöma noggrannheten i ungersk språkbehandling (NAIH kräver specifikt noggrannhetsdokumentation för språk som ligger under EU-genomsnittet)
- Inkludera en mänsklig granskning för automatiserade beslut
- Uppdateras årligen när AI-systemet omtränas
För organisationer som implementerar AI-verktyg som behandlar ungerska anställdas, kunders eller medborgares data: kombinationen av NAIH:s obligatoriska DPIA, den 67% NER-noggrannhetsluckan som kräver ungerskspecifika modeller, och TAJ-szám och adóazonosító jel kontrollsiffra valideringskrav skapar en distinkt teknisk efterlevnadsprofil.
Källor: