Volver al BlogGDPR y Cumplimiento

NAIH Hungría: TAJ-Szám, Adóazonosító Jel, y Por Qué la Precisión del NER Húngaro Está por Debajo del Promedio de la UE

La precisión del NER húngaro es del 67% frente al promedio de la UE del 82% — evaluación de NAIH 2024. Brechas en la detección de checksum ponderado de TAJ-szám y adóazonosító jel. NAIH requiere DPIA para todos los sistemas de IA que procesan datos personales.

March 7, 20267 min de lectura
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

La Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) de Hungría publicó una evaluación técnica de 2024 que revela que la precisión del modelo NER en húngaro alcanza solo el 67% — en comparación con el promedio de la UE del 82% para los principales idiomas europeos. Esta brecha impacta directamente en el cumplimiento: las organizaciones que procesan datos personales húngaros con herramientas de NLP en alemán o inglés sistemáticamente pasan por alto identificadores específicos de Hungría y entidades nombradas.

La Brecha de Precisión del 67% en NER: Lo Que Significa

La brecha de precisión entre los modelos NER en húngaro y los principales idiomas europeos tiene causas lingüísticas estructurales:

Morfología húngara: El húngaro es un idioma aglutinante — las palabras se forman concatenando sufijos para expresar relaciones gramaticales que el inglés expresa a través de palabras separadas. Un nombre húngaro en una oración toma diferentes formas gramaticales dependiendo de su función: "Kovács Péter" (nominativo), "Kovács Péternek" (dativo), "Kovács Pétertől" (ablativo). Los modelos NER deben reconocer el mismo nombre a través de docenas de formas gramaticales.

Orden de los nombres: Los nombres húngaros se escriben en orden oriental — el apellido primero, el nombre de pila segundo (Kovács Péter, no Péter Kovács). Esto es lo opuesto al orden de nombres de Europa Occidental. Los modelos de NLP entrenados en patrones de nombres en inglés o alemán que asumen el orden de nombre de pila primero fallan sistemáticamente en reconocer nombres húngaros.

Conjunto de caracteres húngaro: El húngaro utiliza ő, ű (vocales de doble acento agudo) además de ö, ü. Estos caracteres son distintos de los umlauts alemanes y requieren una codificación/tokenización separada. Los documentos con inconsistencias de codificación (Windows-1250 vs. UTF-8) crean fallos en la detección.

El resultado: las organizaciones que utilizan herramientas de NLP en inglés o alemán para procesar registros de recursos humanos húngaros, documentos médicos o contratos de clientes pasan por alto nombres húngaros a tasas un 33% más altas que las mismas herramientas aplicadas a texto en inglés o alemán.

TAJ-Szám: El Identificador de Seguridad Social de Hungría

El TAJ-szám (Társadalombiztosítási Azonosító Jel) es el número de identificación de seguridad social de 9 dígitos de Hungría, asignado a todos los ciudadanos y residentes húngaros. Aparece en:

  • Registro de atención médica y registros médicos
  • Contratos de trabajo (obligatorio para nómina)
  • Inscripción en beneficios sociales
  • Registros de cuentas de pensión

Checksum: El dígito de verificación del TAJ-szám se calcula utilizando una suma ponderada: multiplicar los dígitos 1-8 por pesos alternos (3,7,3,7,3,7,3,7), sumar, tomar módulo 10. El resultado es el dígito de verificación. Este algoritmo es específico de Hungría — no es el mismo algoritmo de Luhn utilizado para el personnummer sueco o el SIN.

El TAJ-szám es detectado con solo un 61% de precisión por herramientas de NLP genéricas (evaluación NAIH 2024). La falla principal: el formato de 9 dígitos coincide con muchos números de referencia en documentos húngaros, y sin el checksum específico de TAJ, las herramientas no pueden distinguir los números TAJ de falsos positivos.

Adóazonosító Jel: El Número de Identificación Fiscal de Hungría

El adóazonosító jel es un número de identificación fiscal individual de 10 dígitos (no debe confundirse con el número de impuesto de la empresa, adószám). Formato: 8XXXXXXXX donde el primer dígito es siempre 8 (constante), seguido de 9 dígitos con un dígito de verificación.

Cálculo del dígito de verificación: multiplicar los dígitos 2-9 por pesos (9,7,3,1,9,7,3,1), sumar, tomar módulo 10. Si el resultado es 0, el dígito de verificación es 0. De lo contrario, el dígito de verificación es el resultado.

El adóazonosító jel aparece en registros de empleo, declaraciones fiscales, acuerdos de contratistas independientes y documentos de servicios financieros. La aplicación de NAIH ha encontrado que a menudo se pasa por alto en documentos de recursos humanos procesados por herramientas de PII configuradas en el extranjero.

Requisito de DPIA para Sistemas de IA de NAIH

La guía de NAIH de 2024 requiere un DPIA completado antes de implementar cualquier sistema de IA que procese datos personales — más prescriptivo que el enfoque basado en riesgos del GDPR. El DPIA debe:

  • Describir las entradas (datos de entrenamiento, entradas de inferencia) y salidas del modelo de IA
  • Documentar la base legal para cualquier procesamiento de datos personales
  • Evaluar la precisión del procesamiento del idioma húngaro (NAIH requiere específicamente documentación de precisión para idiomas que no alcanzan el promedio de la UE)
  • Incluir un mecanismo de revisión humana para decisiones automatizadas
  • Ser actualizado anualmente cuando el sistema de IA sea reentrenado

Para las organizaciones que implementan herramientas de IA que procesan datos de empleados, clientes o ciudadanos húngaros: la combinación del DPIA obligatorio de NAIH, la brecha de precisión del 67% en NER que requiere modelos específicos para húngaro, y los requisitos de validación de checksum para TAJ-szám y adóazonosító jel crean un perfil de cumplimiento técnico distinto.

Fuentes:

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.