anonym.legal
Torna al BlogGDPR e Conformità

NAIH Ungheria: TAJ-Szám, Adóazonosító Jel e perché l'accuratezza NER ungherese è inferiore alla media dell'UE

L'accuratezza NER ungherese è del 67% rispetto all'82% della media dell'UE — valutazione NAIH 2024. Lacune nella rilevazione del checksum pesato del TAJ-szám e dell'adóazonosító jel. NAIH richiede DPIA per tutti i sistemi AI che elaborano dati personali.

March 7, 20267 min di lettura
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

L'Autorità Nazionale per la Protezione dei Dati e la Libertà di Informazione dell'Ungheria (NAIH) ha pubblicato una valutazione tecnica del 2024 rivelando che l'accuratezza del modello NER in lingua ungherese raggiunge solo il 67% — rispetto alla media dell'UE dell'82% per le principali lingue europee. Questa lacuna influisce direttamente sulla conformità: le organizzazioni che elaborano dati personali ungheresi con strumenti NLP in tedesco o inglese mancano sistematicamente identificatori specifici ungheresi e nomi di entità.

Il divario di accuratezza NER del 67%: cosa significa

Il divario di accuratezza tra i modelli NER ungheresi e quelli delle principali lingue europee ha cause linguistiche strutturali:

Morfologia ungherese: L'ungherese è una lingua agglutinante — le parole sono formate concatenando suffissi per esprimere relazioni grammaticali che l'inglese esprime attraverso parole separate. Un nome ungherese in una frase assume forme grammaticali diverse a seconda del suo ruolo: "Kovács Péter" (nominativo), "Kovács Péternek" (dativo), "Kovács Pétertől" (ablativo). I modelli NER devono riconoscere lo stesso nome attraverso decine di forme grammaticali.

Ordine dei nomi: I nomi ungheresi sono scritti in ordine orientale — cognome prima, nome proprio secondo (Kovács Péter, non Péter Kovács). Questo è l'opposto dell'ordine dei nomi dell'Europa occidentale. I modelli NLP addestrati su schemi di nomi inglesi o tedeschi che assumono un ordine nome-proprio-prima falliscono sistematicamente nel riconoscere i nomi ungheresi.

Set di caratteri ungherese: L'ungherese utilizza ő, ű (vocali doppie acute) oltre a ö, ü. Questi caratteri sono distinti dagli umlaut tedeschi e richiedono una codifica/tokenizzazione separata. Documenti con incoerenze di codifica (Windows-1250 vs. UTF-8) creano errori di rilevamento.

Il risultato: le organizzazioni che utilizzano strumenti NLP in inglese o tedesco per elaborare registri HR ungheresi, documenti medici o contratti con i clienti mancano i nomi ungheresi con tassi superiori del 33% rispetto agli stessi strumenti applicati a testi in inglese o tedesco.

TAJ-Szám: l'identificatore di sicurezza sociale dell'Ungheria

Il TAJ-szám (Társadalombiztosítási Azonosító Jel) è il numero di identificazione della sicurezza sociale ungherese di 9 cifre, assegnato a tutti i cittadini e residenti ungheresi. Appare in:

  • Registrazione sanitaria e cartelle cliniche
  • Contratti di lavoro (obbligatorio per la busta paga)
  • Iscrizione ai benefici sociali
  • Registri dei conti pensionistici

Checksum: La cifra di controllo del TAJ-szám è calcolata utilizzando una somma pesata: moltiplicare le cifre 1-8 per pesi alternati (3,7,3,7,3,7,3,7), sommare, prendere il modulo 10. Il risultato è la cifra di controllo. Questo algoritmo è specifico per l'ungherese — non lo stesso algoritmo di Luhn utilizzato per il personnummer svedese o il SIN.

Il TAJ-szám è rilevato con solo il 61% di accuratezza da strumenti NLP generici (valutazione NAIH 2024). Il fallimento principale: il formato a 9 cifre corrisponde a molti numeri di riferimento nei documenti ungheresi e senza il checksum specifico del TAJ, gli strumenti non possono distinguere i numeri TAJ dai falsi positivi.

Adóazonosító Jel: il numero di identificazione fiscale dell'Ungheria

L'adóazonosító jel è un numero di identificazione fiscale individuale di 10 cifre (non deve essere confuso con il numero fiscale dell'azienda, adószám). Formato: 8XXXXXXXX dove la prima cifra è sempre 8 (costante), seguita da 9 cifre con una cifra di controllo.

Calcolo della cifra di controllo: moltiplicare le cifre 2-9 per pesi (9,7,3,1,9,7,3,1), sommare, prendere il modulo 10. Se il risultato è 0, la cifra di controllo è 0. Altrimenti, la cifra di controllo è il risultato.

L'adóazonosító jel appare nei registri di lavoro, nelle dichiarazioni fiscali, nei contratti di lavoro autonomo e nei documenti dei servizi finanziari. L'applicazione della NAIH ha riscontrato che viene frequentemente trascurato nei documenti HR elaborati da strumenti PII configurati all'estero.

Requisito DPIA per i sistemi AI della NAIH

Le linee guida del 2024 della NAIH richiedono un DPIA completato prima di implementare qualsiasi sistema AI che elabori dati personali — più prescrittivo rispetto all'approccio basato sul rischio del GDPR. Il DPIA deve:

  • Descrivere gli input (dati di addestramento, input di inferenza) e gli output del modello AI
  • Documentare la base legale per qualsiasi trattamento di dati personali
  • Valutare l'accuratezza del trattamento della lingua ungherese (la NAIH richiede specificamente la documentazione dell'accuratezza per lingue non medie dell'UE)
  • Includere un meccanismo di revisione umana per decisioni automatizzate
  • Essere aggiornato annualmente quando il sistema AI viene riaddestrato

Per le organizzazioni che implementano strumenti AI che elaborano dati di dipendenti, clienti o cittadini ungheresi: la combinazione del DPIA obbligatorio della NAIH, il divario di accuratezza NER del 67% che richiede modelli specifici per l'ungherese e i requisiti di validazione del checksum per il TAJ-szám e l'adóazonosító jel crea un profilo di conformità tecnica distintivo.

Fonti:

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.