Tillbaka till BloggenGDPR & Efterlevnad

NAIH Ungern: TAJ-Szám, Adóazonosító Jel, och Varför Ungersk NER Noggrannhet Ligger Efter EU-genomsnittet

Ungersk NER-noggrannhet är 67% jämfört med EU-genomsnittet 82% — NAIH:s bedömning 2024. TAJ-szám viktad kontrollsiffra och adóazonosító jel detekteringsluckor. NAIH kräver DPIA för alla AI-system som behandlar personuppgifter.

March 7, 20267 min läsning
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Ungerns Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) publicerade en teknisk bedömning för 2024 som avslöjar att noggrannheten för ungerska NER-modeller endast når 67% — jämfört med EU-genomsnittet på 82% för stora europeiska språk. Denna lucka påverkar direkt efterlevnaden: organisationer som behandlar ungerska personuppgifter med tyska eller engelska NLP-verktyg missar systematiskt ungerskspecifika identifierare och namngivna entiteter.

Luckan i NER-noggrannhet på 67%: Vad Det Betyder

Noggrannhetsluckan mellan ungerska och stora europeiska språk NER-modeller har strukturella språkliga orsaker:

Ungersk morfologi: Ungerska är ett agglutinerande språk — ord bildas genom att sammanfoga suffix för att uttrycka grammatiska relationer som engelska uttrycker genom separata ord. Ett ungerskt namn i en mening tar olika grammatiska former beroende på dess roll: "Kovács Péter" (nominativ), "Kovács Péternek" (dativ), "Kovács Pétertől" (ablativ). NER-modeller måste känna igen samma namn över dussintals grammatiska former.

Namnordning: Ungerska namn skrivs i östlig ordning — efternamn först, förnamn andra (Kovács Péter, inte Péter Kovács). Detta är motsatsen till västeuropeisk namnordning. NLP-modeller som tränats på engelska eller tyska namn mönster som antar förnamn-först ordning misslyckas systematiskt med att känna igen ungerska namn.

Ungerskt teckensystem: Ungerska använder ő, ű (dubbel-ackuta vokaler) utöver ö, ü. Dessa tecken är distinkta från tyska umlaut och kräver separat kodning/tokenisering. Dokument med kodningsinkonsekvenser (Windows-1250 vs. UTF-8) skapar detekteringsfel.

Resultatet: organisationer som använder engelska eller tyska NLP-verktyg för att bearbeta ungerska HR-poster, medicinska dokument eller kundkontrakt missar ungerska namn med 33% högre frekvens än samma verktyg som tillämpas på engelska eller tyska texter.

TAJ-Szám: Ungerns Socialförsäkringsidentifierare

TAJ-szám (Társadalombiztosítási Azonosító Jel) är Ungerns 9-siffriga socialförsäkringsidentifieringsnummer, tilldelat alla ungerska medborgare och invånare. Det förekommer i:

  • Sjukvårdsregistrering och medicinska journaler
  • Anställningskontrakt (obligatoriskt för löneutbetalning)
  • Registrering för sociala förmåner
  • Pensionskonton

Kontrollsiffra: TAJ-szám kontrollsiffra beräknas med en viktad summa: multiplicera siffrorna 1-8 med växlande vikter (3,7,3,7,3,7,3,7), summera, ta modulo 10. Resultatet är kontrollsiffran. Denna algoritm är ungersk-specifik — inte samma Luhn-algoritm som används för svenska personnummer eller SIN.

TAJ-szám upptäcktes med endast 61% noggrannhet av generiska NLP-verktyg (NAIH 2024 bedömning). Den primära misslyckandet: det 9-siffriga formatet matchar många referensnummer i ungerska dokument, och utan den TAJ-specifika kontrollsiffran kan verktyg inte särskilja TAJ-nummer från falska positiva.

Adóazonosító Jel: Ungerns Skatteidentifieringsnummer

Adóazonosító jel är ett 10-siffrigt individuellt skatteidentifieringsnummer (inte att förväxla med företags skattenummer, adószám). Format: 8XXXXXXXX där den första siffran alltid är 8 (konstant), följt av 9 siffror med en kontrollsiffra.

Beräkning av kontrollsiffra: multiplicera siffrorna 2-9 med vikter (9,7,3,1,9,7,3,1), summera, ta modulo 10. Om resultatet är 0, är kontrollsiffran 0. Annars är kontrollsiffran resultatet.

Adóazonosító jel förekommer i anställningsregister, skattedeklarationer, avtal med frilansande entreprenörer och dokument för finansiella tjänster. NAIH:s tillsyn har funnit att den ofta missas i HR-dokument som behandlas av utländskt konfigurerade PII-verktyg.

NAIH:s AI-system DPIA-krav

NAIH:s vägledning för 2024 kräver en slutförd DPIA innan något AI-system som behandlar personuppgifter implementeras — mer preskriptiv än GDPR:s riskbaserade tillvägagångssätt. DPIA:n måste:

  • Beskriva AI-modellens datainmatningar (träningsdata, inferensinmatningar) och utdata
  • Dokumentera den rättsliga grunden för all behandling av personuppgifter
  • Bedöma noggrannheten i ungersk språkbehandling (NAIH kräver specifikt noggrannhetsdokumentation för språk som ligger under EU-genomsnittet)
  • Inkludera en mänsklig granskning för automatiserade beslut
  • Uppdateras årligen när AI-systemet omtränas

För organisationer som implementerar AI-verktyg som behandlar ungerska anställdas, kunders eller medborgares data: kombinationen av NAIH:s obligatoriska DPIA, den 67% NER-noggrannhetsluckan som kräver ungerskspecifika modeller, och TAJ-szám och adóazonosító jel kontrollsiffra valideringskrav skapar en distinkt teknisk efterlevnadsprofil.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.