Voltar ao BlogGDPR & Conformidade

NAIH Hungria: TAJ-Szám, Adóazonosító Jel e Por que a Precisão do NER Húngaro Fica Atrasada em Relação à Média da UE

A precisão do NER húngaro é 67% contra 82% da média da UE — avaliação de 2024 da NAIH. Lacunas na detecção de checksum ponderado do TAJ-szám e adóazonosító jel. A NAIH exige DPIA para todos os sistemas de IA que processam dados pessoais.

March 7, 20267 min de leitura
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

A Autoridade Nacional de Proteção de Dados e Liberdade de Informação da Hungria (NAIH) publicou uma avaliação técnica de 2024 revelando que a precisão do modelo NER em húngaro atinge apenas 67% — em comparação com a média da UE de 82% para os principais idiomas europeus. Essa lacuna impacta diretamente a conformidade: organizações que processam dados pessoais húngaros com ferramentas de NLP em alemão ou inglês sistematicamente perdem identificadores e entidades nomeadas específicas do húngaro.

A Lacuna de 67% na Precisão do NER: O Que Isso Significa

A lacuna de precisão entre os modelos NER húngaros e os de grandes idiomas europeus tem causas linguísticas estruturais:

Morfologia Húngara: O húngaro é uma língua aglutinativa — as palavras são formadas pela concatenação de sufixos para expressar relações gramaticais que o inglês expressa por meio de palavras separadas. Um nome húngaro em uma frase assume diferentes formas gramaticais dependendo de seu papel: "Kovács Péter" (nominativo), "Kovács Péternek" (dativo), "Kovács Pétertől" (ablativo). Os modelos NER devem reconhecer o mesmo nome em dezenas de formas gramaticais.

Ordem dos Nomes: Os nomes húngaros são escritos na ordem oriental — sobrenome primeiro, nome próprio segundo (Kovács Péter, não Péter Kovács). Isso é o oposto da ordem dos nomes da Europa Ocidental. Modelos de NLP treinados em padrões de nomes em inglês ou alemão que assumem a ordem nome-primeiro falham sistematicamente em reconhecer nomes húngaros.

Conjunto de Caracteres Húngaros: O húngaro utiliza ő, ű (vogais duplo-agudas) além de ö, ü. Esses caracteres são distintos dos umlauts alemães e requerem codificação/tokenização separadas. Documentos com inconsistências de codificação (Windows-1250 vs. UTF-8) criam falhas de detecção.

O resultado: organizações que usam ferramentas de NLP em inglês ou alemão para processar registros de RH, documentos médicos ou contratos de clientes perdem nomes húngaros em taxas 33% mais altas do que as mesmas ferramentas aplicadas a textos em inglês ou alemão.

TAJ-Szám: Identificador de Segurança Social da Hungria

O TAJ-szám (Társadalombiztosítási Azonosító Jel) é o número de identificação de segurança social de 9 dígitos da Hungria, atribuído a todos os cidadãos e residentes húngaros. Ele aparece em:

  • Registro de saúde e registros médicos
  • Contratos de trabalho (obrigatório para folha de pagamento)
  • Inscrição em benefícios sociais
  • Registros de contas de pensão

Checksum: O dígito de verificação do TAJ-szám é calculado usando uma soma ponderada: multiplique os dígitos 1-8 por pesos alternados (3,7,3,7,3,7,3,7), some, e faça o módulo 10. O resultado é o dígito de verificação. Este algoritmo é específico da Hungria — não é o mesmo algoritmo de Luhn usado para personnummer sueco ou SIN.

TAJ-szám detectado com apenas 61% de precisão por ferramentas de NLP genéricas (avaliação NAIH 2024). A falha principal: o formato de 9 dígitos corresponde a muitos números de referência em documentos húngaros, e sem o checksum específico do TAJ, as ferramentas não conseguem distinguir números TAJ de falsos positivos.

Adóazonosító Jel: Número de Identificação Fiscal da Hungria

O adóazonosító jel é um número de identificação fiscal individual de 10 dígitos (não deve ser confundido com o número fiscal da empresa, adószám). Formato: 8XXXXXXXX onde o primeiro dígito é sempre 8 (constante), seguido por 9 dígitos com um dígito de verificação.

Cálculo do dígito de verificação: multiplique os dígitos 2-9 por pesos (9,7,3,1,9,7,3,1), some, e faça o módulo 10. Se o resultado for 0, o dígito de verificação é 0. Caso contrário, o dígito de verificação é o resultado.

Adóazonosító jel aparece em registros de emprego, declarações fiscais, contratos de prestadores de serviços autônomos e documentos de serviços financeiros. A aplicação da NAIH constatou que ele é frequentemente perdido em documentos de RH processados por ferramentas de PII configuradas no exterior.

Requisito de DPIA do Sistema de IA da NAIH

A orientação de 2024 da NAIH exige um DPIA completo antes de implantar qualquer sistema de IA que processe dados pessoais — mais prescritivo do que a abordagem baseada em risco do GDPR. O DPIA deve:

  • Descrever as entradas (dados de treinamento, entradas de inferência) e saídas do modelo de IA
  • Documentar a base legal para qualquer processamento de dados pessoais
  • Avaliar a precisão do processamento de linguagem húngara (a NAIH exige especificamente documentação de precisão para idiomas que não estão na média da UE)
  • Incluir um mecanismo de revisão humana para decisões automatizadas
  • Ser atualizado anualmente quando o sistema de IA for re-treinado

Para organizações que implantam ferramentas de IA que processam dados de funcionários, clientes ou cidadãos húngaros: a combinação do DPIA obrigatório da NAIH, a lacuna de precisão de 67% do NER que requer modelos específicos do húngaro, e os requisitos de validação de checksum do TAJ-szám e adóazonosító jel criam um perfil de conformidade técnica distinto.

Fontes:

Pronto para proteger seus dados?

Comece a anonimizar PII com mais de 285 tipos de entidades em 48 idiomas.