A Autoridade Nacional de Proteção de Dados e Liberdade de Informação da Hungria (NAIH) publicou uma avaliação técnica de 2024 revelando que a precisão do modelo NER em húngaro atinge apenas 67% — em comparação com a média da UE de 82% para os principais idiomas europeus. Essa lacuna impacta diretamente a conformidade: organizações que processam dados pessoais húngaros com ferramentas de NLP em alemão ou inglês sistematicamente perdem identificadores e entidades nomeadas específicas do húngaro.
A Lacuna de 67% na Precisão do NER: O Que Isso Significa
A lacuna de precisão entre os modelos NER húngaros e os de grandes idiomas europeus tem causas linguísticas estruturais:
Morfologia Húngara: O húngaro é uma língua aglutinativa — as palavras são formadas pela concatenação de sufixos para expressar relações gramaticais que o inglês expressa por meio de palavras separadas. Um nome húngaro em uma frase assume diferentes formas gramaticais dependendo de seu papel: "Kovács Péter" (nominativo), "Kovács Péternek" (dativo), "Kovács Pétertől" (ablativo). Os modelos NER devem reconhecer o mesmo nome em dezenas de formas gramaticais.
Ordem dos Nomes: Os nomes húngaros são escritos na ordem oriental — sobrenome primeiro, nome próprio segundo (Kovács Péter, não Péter Kovács). Isso é o oposto da ordem dos nomes da Europa Ocidental. Modelos de NLP treinados em padrões de nomes em inglês ou alemão que assumem a ordem nome-primeiro falham sistematicamente em reconhecer nomes húngaros.
Conjunto de Caracteres Húngaros: O húngaro utiliza ő, ű (vogais duplo-agudas) além de ö, ü. Esses caracteres são distintos dos umlauts alemães e requerem codificação/tokenização separadas. Documentos com inconsistências de codificação (Windows-1250 vs. UTF-8) criam falhas de detecção.
O resultado: organizações que usam ferramentas de NLP em inglês ou alemão para processar registros de RH, documentos médicos ou contratos de clientes perdem nomes húngaros em taxas 33% mais altas do que as mesmas ferramentas aplicadas a textos em inglês ou alemão.
TAJ-Szám: Identificador de Segurança Social da Hungria
O TAJ-szám (Társadalombiztosítási Azonosító Jel) é o número de identificação de segurança social de 9 dígitos da Hungria, atribuído a todos os cidadãos e residentes húngaros. Ele aparece em:
- Registro de saúde e registros médicos
- Contratos de trabalho (obrigatório para folha de pagamento)
- Inscrição em benefícios sociais
- Registros de contas de pensão
Checksum: O dígito de verificação do TAJ-szám é calculado usando uma soma ponderada: multiplique os dígitos 1-8 por pesos alternados (3,7,3,7,3,7,3,7), some, e faça o módulo 10. O resultado é o dígito de verificação. Este algoritmo é específico da Hungria — não é o mesmo algoritmo de Luhn usado para personnummer sueco ou SIN.
TAJ-szám detectado com apenas 61% de precisão por ferramentas de NLP genéricas (avaliação NAIH 2024). A falha principal: o formato de 9 dígitos corresponde a muitos números de referência em documentos húngaros, e sem o checksum específico do TAJ, as ferramentas não conseguem distinguir números TAJ de falsos positivos.
Adóazonosító Jel: Número de Identificação Fiscal da Hungria
O adóazonosító jel é um número de identificação fiscal individual de 10 dígitos (não deve ser confundido com o número fiscal da empresa, adószám). Formato: 8XXXXXXXX onde o primeiro dígito é sempre 8 (constante), seguido por 9 dígitos com um dígito de verificação.
Cálculo do dígito de verificação: multiplique os dígitos 2-9 por pesos (9,7,3,1,9,7,3,1), some, e faça o módulo 10. Se o resultado for 0, o dígito de verificação é 0. Caso contrário, o dígito de verificação é o resultado.
Adóazonosító jel aparece em registros de emprego, declarações fiscais, contratos de prestadores de serviços autônomos e documentos de serviços financeiros. A aplicação da NAIH constatou que ele é frequentemente perdido em documentos de RH processados por ferramentas de PII configuradas no exterior.
Requisito de DPIA do Sistema de IA da NAIH
A orientação de 2024 da NAIH exige um DPIA completo antes de implantar qualquer sistema de IA que processe dados pessoais — mais prescritivo do que a abordagem baseada em risco do GDPR. O DPIA deve:
- Descrever as entradas (dados de treinamento, entradas de inferência) e saídas do modelo de IA
- Documentar a base legal para qualquer processamento de dados pessoais
- Avaliar a precisão do processamento de linguagem húngara (a NAIH exige especificamente documentação de precisão para idiomas que não estão na média da UE)
- Incluir um mecanismo de revisão humana para decisões automatizadas
- Ser atualizado anualmente quando o sistema de IA for re-treinado
Para organizações que implantam ferramentas de IA que processam dados de funcionários, clientes ou cidadãos húngaros: a combinação do DPIA obrigatório da NAIH, a lacuna de precisão de 67% do NER que requer modelos específicos do húngaro, e os requisitos de validação de checksum do TAJ-szám e adóazonosító jel criam um perfil de conformidade técnica distinto.
Fontes: