Венгерский Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) опубликовал техническую оценку 2024 года, показавшую, что точность моделей NER на венгерском языке достигает лишь 67% — по сравнению со средним показателем 82% для крупных европейских языков. Этот разрыв непосредственно влияет на соответствие: организации, обрабатывающие венгерские персональные данные с помощью немецких или английских инструментов NLP, систематически пропускают венгерские идентификаторы и именные сущности.
Разрыв точности NER в 67%: что это означает
Разрыв точности между венгерским и крупными европейскими языками NER имеет структурные лингвистические причины:
Венгерская морфология: Венгерский — агглютинативный язык: слова образуются путём конкатенации суффиксов для выражения грамматических отношений, которые в английском выражаются отдельными словами. Венгерское имя в предложении принимает разные грамматические формы в зависимости от своей роли: «Kovács Péter» (именительный), «Kovács Péternek» (дательный), «Kovács Pétertől» (отложительный). Модели NER должны распознавать одно и то же имя в десятках грамматических форм.
Порядок имён: Венгерские имена пишутся в восточном порядке — сначала фамилия, затем имя (Kovács Péter, а не Péter Kovács). Это обратный порядок по сравнению с западноевропейским. Модели NLP, обученные на английских или немецких именных шаблонах с предположением о порядке «имя-фамилия», систематически не распознают венгерские имена.
Набор символов венгерского языка: Венгерский использует ő, ű (гласные с двойным ударением) помимо ö, ü. Эти символы отличаются от немецких умлаутов и требуют отдельной кодировки/токенизации. Документы с несоответствием кодировок (Windows-1250 против UTF-8) приводят к сбоям обнаружения.
Результат: организации, использующие английские или немецкие инструменты NLP для обработки венгерских HR-записей, медицинских документов или клиентских договоров, пропускают венгерские имена на 33% чаще, чем при применении тех же инструментов к английскому или немецкому тексту.
TAJ-szám: венгерский идентификатор социального страхования
TAJ-szám (Társadalombiztosítási Azonosító Jel) — 9-значный идентификационный номер социального страхования Венгрии, присваиваемый всем гражданам и резидентам. Фигурирует в:
- Регистрации в здравоохранении и медицинских записях
- Трудовых договорах (обязателен для начисления заработной платы)
- Оформлении социальных льгот
- Записях пенсионного счёта
Контрольная сумма: Контрольная цифра TAJ-szám вычисляется по взвешенной сумме: умножить цифры 1–8 на чередующиеся веса (3,7,3,7,3,7,3,7), суммировать, взять по модулю 10. Результат является контрольной цифрой. Этот алгоритм специфичен для Венгрии — он не совпадает с алгоритмом Луна, используемым для шведского personnummer или SIN.
TAJ-szám обнаруживается универсальными инструментами NLP лишь с точностью 61% (оценка NAIH 2024). Основная причина сбоя: 9-значный формат совпадает со многими справочными номерами в венгерских документах, и без контрольной суммы, специфичной для TAJ, инструменты не могут отличить номера TAJ от ложных срабатываний.
Adóazonosító jel: венгерский налоговый идентификационный номер
Adóazonosító jel — 10-значный индивидуальный налоговый идентификационный номер (не следует путать с налоговым номером компании, adószám). Формат: 8XXXXXXXX, где первая цифра всегда 8 (константа), за которой следуют 9 цифр с контрольной цифрой.
Вычисление контрольной цифры: умножить цифры 2–9 на веса (9,7,3,1,9,7,3,1), суммировать, взять по модулю 10. Если результат равен 0, контрольная цифра = 0. В противном случае контрольная цифра равна результату.
Adóazonosító jel фигурирует в трудовых записях, налоговых декларациях, договорах с внештатными подрядчиками и документах финансовых услуг. Правоприменение NAIH выявило, что он часто пропускается в HR-документах, обрабатываемых иностранными инструментами PII.
Требование NAIH к DPIA для систем ИИ
Руководство NAIH 2024 года требует завершённой DPIA перед развёртыванием любой системы ИИ, обрабатывающей персональные данные, — более предписывающий подход, чем основанный на рисках подход GDPR. DPIA должна:
- Описывать входные данные модели ИИ (обучающие данные, входные данные для вывода) и выходные данные
- Документировать правовое основание для любой обработки персональных данных
- Оценивать точность обработки венгерского языка (NAIH специально требует документации точности для языков с показателем ниже среднего по ЕС)
- Включать механизм участия человека при автоматизированных решениях
- Ежегодно обновляться при переобучении системы ИИ
Для организаций, развёртывающих инструменты ИИ, обрабатывающие данные венгерских сотрудников, клиентов или граждан: сочетание обязательной DPIA NAIH, разрыва точности NER в 67%, требующего венгерских моделей, и требований к проверке контрольных сумм TAJ-szám и adóazonosító jel формирует особый технический профиль соответствия.
Источники: