Zurück zum BlogDSGVO & Compliance

NAIH Ungarn: TAJ-Szám, Adóazonosító Jel und warum die Genauigkeit des ungarischen NER hinter dem EU-Durchschnitt zurückbleibt

Die Genauigkeit des ungarischen NER beträgt 67 % im Vergleich zum EU-Durchschnitt von 82 % — NAIH's Bewertung 2024. Lücken bei der gewichteten Prüfziffer des TAJ-Szám und der Erkennung des Adóazonosító Jel. NAIH verlangt eine DPIA für alle KI-Systeme, die personenbezogene Daten verarbeiten.

March 7, 20267 min Lesezeit
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Die Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) in Ungarn veröffentlichte eine technische Bewertung für 2024, die zeigt, dass die Genauigkeit ungarischsprachiger NER-Modelle nur 67 % erreicht — im Vergleich zum EU-Durchschnitt von 82 % für wichtige europäische Sprachen. Diese Lücke hat direkte Auswirkungen auf die Compliance: Organisationen, die ungarische personenbezogene Daten mit deutschen oder englischen NLP-Tools verarbeiten, erkennen systematisch ungarisch-spezifische Identifikatoren und Namensentitäten nicht.

Die 67 % NER-Genauigkeitslücke: Was sie bedeutet

Die Genauigkeitslücke zwischen ungarischen und großen europäischen Sprach-NER-Modellen hat strukturell linguistische Ursachen:

Ungarische Morphologie: Ungarisch ist eine agglutinierende Sprache — Wörter werden gebildet, indem Suffixe angehängt werden, um grammatische Beziehungen auszudrücken, die im Englischen durch separate Wörter ausgedrückt werden. Ein ungarischer Name in einem Satz nimmt je nach Rolle unterschiedliche grammatische Formen an: "Kovács Péter" (Nominativ), "Kovács Péternek" (Dativ), "Kovács Pétertől" (Ablativ). NER-Modelle müssen denselben Namen über Dutzende von grammatischen Formen hinweg erkennen.

Namensreihenfolge: Ungarische Namen werden in östlicher Reihenfolge geschrieben — Nachname zuerst, Vorname zweitens (Kovács Péter, nicht Péter Kovács). Dies ist das Gegenteil der westlichen europäischen Namensreihenfolge. NLP-Modelle, die auf englischen oder deutschen Namensmustern trainiert sind und von einer Vorname-zuerst-Annahme ausgehen, erkennen ungarische Namen systematisch nicht.

Ungarischer Zeichensatz: Ungarisch verwendet ő, ű (doppelt akzentuierte Vokale) zusätzlich zu ö, ü. Diese Zeichen unterscheiden sich von deutschen Umlauten und erfordern eine separate Kodierung/Tokenisierung. Dokumente mit Kodierungsinkonsistenzen (Windows-1250 vs. UTF-8) führen zu Erkennungsfehlern.

Das Ergebnis: Organisationen, die englische oder deutsche NLP-Tools zur Verarbeitung ungarischer HR-Daten, medizinischer Dokumente oder Kundenverträge verwenden, übersehen ungarische Namen um 33 % häufiger als bei der Anwendung derselben Tools auf englischen oder deutschen Text.

TAJ-Szám: Ungarns Sozialversicherungsidentifikator

Der TAJ-Szám (Társadalombiztosítási Azonosító Jel) ist die 9-stellige Sozialversicherungsnummer Ungarns, die allen ungarischen Staatsbürgern und Einwohnern zugewiesen wird. Er erscheint in:

  • Gesundheitsregistrierungen und medizinischen Unterlagen
  • Arbeitsverträgen (obligatorisch für die Lohnabrechnung)
  • Sozialleistungsanmeldungen
  • Rentenkonten

Prüfziffer: Die Prüfziffer des TAJ-Szám wird mit einer gewichteten Summe berechnet: multiplizieren Sie die Ziffern 1-8 mit abwechselnden Gewichten (3,7,3,7,3,7,3,7), summieren, modulo 10 nehmen. Das Ergebnis ist die Prüfziffer. Dieser Algorithmus ist ungarisch-spezifisch — nicht dasselbe Luhn-Verfahren, das für die schwedische personnummer oder SIN verwendet wird.

Der TAJ-Szám wird von generischen NLP-Tools nur mit 61 % Genauigkeit erkannt (NAIH 2024 Bewertung). Der Hauptfehler: Das 9-stellige Format stimmt mit vielen Referenznummern in ungarischen Dokumenten überein, und ohne die TAJ-spezifische Prüfziffer können die Tools TAJ-Nummern nicht von falsch positiven Ergebnissen unterscheiden.

Adóazonosító Jel: Ungarns Steueridentifikationsnummer

Der adóazonosító jel ist eine 10-stellige individuelle Steueridentifikationsnummer (nicht zu verwechseln mit der Unternehmenssteuernummer, adószám). Format: 8XXXXXXXX, wobei die erste Ziffer immer 8 (konstant) ist, gefolgt von 9 Ziffern mit einer Prüfziffer.

Berechnung der Prüfziffer: multiplizieren Sie die Ziffern 2-9 mit Gewichten (9,7,3,1,9,7,3,1), summieren, modulo 10 nehmen. Wenn das Ergebnis 0 ist, ist die Prüfziffer 0. Andernfalls ist die Prüfziffer das Ergebnis.

Der adóazonosító jel erscheint in Arbeitsunterlagen, Steuererklärungen, Verträgen mit Freiberuflern und Dokumenten im Finanzdienstleistungsbereich. Die Durchsetzung durch die NAIH hat ergeben, dass er häufig in HR-Dokumenten, die von ausländisch konfigurierten PII-Tools verarbeitet werden, übersehen wird.

NAIH's KI-System DPIA-Anforderung

Die Richtlinien der NAIH für 2024 verlangen eine abgeschlossene DPIA, bevor ein KI-System, das personenbezogene Daten verarbeitet, bereitgestellt wird — vorschriftsmäßiger als der risikobasierte Ansatz der GDPR. Die DPIA muss:

  • Die Dateninputs (Trainingsdaten, Inferenzinputs) und Outputs des KI-Modells beschreiben
  • Die rechtliche Grundlage für die Verarbeitung personenbezogener Daten dokumentieren
  • Die Genauigkeit der Verarbeitung der ungarischen Sprache bewerten (NAIH verlangt speziell eine Dokumentation der Genauigkeit für nicht-EU-durchschnittliche Sprachen)
  • Einen menschlichen Überprüfungsmechanismus für automatisierte Entscheidungen enthalten
  • Jährlich aktualisiert werden, wenn das KI-System neu trainiert wird

Für Organisationen, die KI-Tools bereitstellen, die ungarische Mitarbeiter-, Kunden- oder Bürgerdaten verarbeiten: Die Kombination aus NAIH's obligatorischer DPIA, der 67 % NER-Genauigkeitslücke, die ungarisch-spezifische Modelle erfordert, und den Anforderungen an die Prüfziffernvalidierung für TAJ-Szám und adóazonosító jel schafft ein distinct technisches Compliance-Profil.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.