L'Autorità Nazionale per la Protezione dei Dati e la Libertà di Informazione dell'Ungheria (NAIH) ha pubblicato una valutazione tecnica del 2024 rivelando che l'accuratezza del modello NER in lingua ungherese raggiunge solo il 67% — rispetto alla media dell'UE dell'82% per le principali lingue europee. Questa lacuna influisce direttamente sulla conformità: le organizzazioni che elaborano dati personali ungheresi con strumenti NLP in tedesco o inglese mancano sistematicamente identificatori specifici ungheresi e nomi di entità.
Il divario di accuratezza NER del 67%: cosa significa
Il divario di accuratezza tra i modelli NER ungheresi e quelli delle principali lingue europee ha cause linguistiche strutturali:
Morfologia ungherese: L'ungherese è una lingua agglutinante — le parole sono formate concatenando suffissi per esprimere relazioni grammaticali che l'inglese esprime attraverso parole separate. Un nome ungherese in una frase assume forme grammaticali diverse a seconda del suo ruolo: "Kovács Péter" (nominativo), "Kovács Péternek" (dativo), "Kovács Pétertől" (ablativo). I modelli NER devono riconoscere lo stesso nome attraverso decine di forme grammaticali.
Ordine dei nomi: I nomi ungheresi sono scritti in ordine orientale — cognome prima, nome proprio secondo (Kovács Péter, non Péter Kovács). Questo è l'opposto dell'ordine dei nomi dell'Europa occidentale. I modelli NLP addestrati su schemi di nomi inglesi o tedeschi che assumono un ordine nome-proprio-prima falliscono sistematicamente nel riconoscere i nomi ungheresi.
Set di caratteri ungherese: L'ungherese utilizza ő, ű (vocali doppie acute) oltre a ö, ü. Questi caratteri sono distinti dagli umlaut tedeschi e richiedono una codifica/tokenizzazione separata. Documenti con incoerenze di codifica (Windows-1250 vs. UTF-8) creano errori di rilevamento.
Il risultato: le organizzazioni che utilizzano strumenti NLP in inglese o tedesco per elaborare registri HR ungheresi, documenti medici o contratti con i clienti mancano i nomi ungheresi con tassi superiori del 33% rispetto agli stessi strumenti applicati a testi in inglese o tedesco.
TAJ-Szám: l'identificatore di sicurezza sociale dell'Ungheria
Il TAJ-szám (Társadalombiztosítási Azonosító Jel) è il numero di identificazione della sicurezza sociale ungherese di 9 cifre, assegnato a tutti i cittadini e residenti ungheresi. Appare in:
- Registrazione sanitaria e cartelle cliniche
- Contratti di lavoro (obbligatorio per la busta paga)
- Iscrizione ai benefici sociali
- Registri dei conti pensionistici
Checksum: La cifra di controllo del TAJ-szám è calcolata utilizzando una somma pesata: moltiplicare le cifre 1-8 per pesi alternati (3,7,3,7,3,7,3,7), sommare, prendere il modulo 10. Il risultato è la cifra di controllo. Questo algoritmo è specifico per l'ungherese — non lo stesso algoritmo di Luhn utilizzato per il personnummer svedese o il SIN.
Il TAJ-szám è rilevato con solo il 61% di accuratezza da strumenti NLP generici (valutazione NAIH 2024). Il fallimento principale: il formato a 9 cifre corrisponde a molti numeri di riferimento nei documenti ungheresi e senza il checksum specifico del TAJ, gli strumenti non possono distinguere i numeri TAJ dai falsi positivi.
Adóazonosító Jel: il numero di identificazione fiscale dell'Ungheria
L'adóazonosító jel è un numero di identificazione fiscale individuale di 10 cifre (non deve essere confuso con il numero fiscale dell'azienda, adószám). Formato: 8XXXXXXXX dove la prima cifra è sempre 8 (costante), seguita da 9 cifre con una cifra di controllo.
Calcolo della cifra di controllo: moltiplicare le cifre 2-9 per pesi (9,7,3,1,9,7,3,1), sommare, prendere il modulo 10. Se il risultato è 0, la cifra di controllo è 0. Altrimenti, la cifra di controllo è il risultato.
L'adóazonosító jel appare nei registri di lavoro, nelle dichiarazioni fiscali, nei contratti di lavoro autonomo e nei documenti dei servizi finanziari. L'applicazione della NAIH ha riscontrato che viene frequentemente trascurato nei documenti HR elaborati da strumenti PII configurati all'estero.
Requisito DPIA per i sistemi AI della NAIH
Le linee guida del 2024 della NAIH richiedono un DPIA completato prima di implementare qualsiasi sistema AI che elabori dati personali — più prescrittivo rispetto all'approccio basato sul rischio del GDPR. Il DPIA deve:
- Descrivere gli input (dati di addestramento, input di inferenza) e gli output del modello AI
- Documentare la base legale per qualsiasi trattamento di dati personali
- Valutare l'accuratezza del trattamento della lingua ungherese (la NAIH richiede specificamente la documentazione dell'accuratezza per lingue non medie dell'UE)
- Includere un meccanismo di revisione umana per decisioni automatizzate
- Essere aggiornato annualmente quando il sistema AI viene riaddestrato
Per le organizzazioni che implementano strumenti AI che elaborano dati di dipendenti, clienti o cittadini ungheresi: la combinazione del DPIA obbligatorio della NAIH, il divario di accuratezza NER del 67% che richiede modelli specifici per l'ungherese e i requisiti di validazione del checksum per il TAJ-szám e l'adóazonosító jel crea un profilo di conformità tecnica distintivo.
Fonti: