anonym.legal
Назад к блогуGDPR и соблюдение

NAIH Венгрии: TAJ-szám, adóazonosító jel и почему...

Точность венгерского NER составляет 67% против среднего показателя по ЕС 82% — по оценке NAIH 2024 года.

April 21, 20267 мин чтения
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

Венгерский Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) опубликовал техническую оценку 2024 года, показавшую, что точность моделей NER на венгерском языке достигает лишь 67% — по сравнению со средним показателем 82% для крупных европейских языков. Этот разрыв непосредственно влияет на соответствие: организации, обрабатывающие венгерские персональные данные с помощью немецких или английских инструментов NLP, систематически пропускают венгерские идентификаторы и именные сущности.

Разрыв точности NER в 67%: что это означает

Разрыв точности между венгерским и крупными европейскими языками NER имеет структурные лингвистические причины:

Венгерская морфология: Венгерский — агглютинативный язык: слова образуются путём конкатенации суффиксов для выражения грамматических отношений, которые в английском выражаются отдельными словами. Венгерское имя в предложении принимает разные грамматические формы в зависимости от своей роли: «Kovács Péter» (именительный), «Kovács Péternek» (дательный), «Kovács Pétertől» (отложительный). Модели NER должны распознавать одно и то же имя в десятках грамматических форм.

Порядок имён: Венгерские имена пишутся в восточном порядке — сначала фамилия, затем имя (Kovács Péter, а не Péter Kovács). Это обратный порядок по сравнению с западноевропейским. Модели NLP, обученные на английских или немецких именных шаблонах с предположением о порядке «имя-фамилия», систематически не распознают венгерские имена.

Набор символов венгерского языка: Венгерский использует ő, ű (гласные с двойным ударением) помимо ö, ü. Эти символы отличаются от немецких умлаутов и требуют отдельной кодировки/токенизации. Документы с несоответствием кодировок (Windows-1250 против UTF-8) приводят к сбоям обнаружения.

Результат: организации, использующие английские или немецкие инструменты NLP для обработки венгерских HR-записей, медицинских документов или клиентских договоров, пропускают венгерские имена на 33% чаще, чем при применении тех же инструментов к английскому или немецкому тексту.

TAJ-szám: венгерский идентификатор социального страхования

TAJ-szám (Társadalombiztosítási Azonosító Jel) — 9-значный идентификационный номер социального страхования Венгрии, присваиваемый всем гражданам и резидентам. Фигурирует в:

  • Регистрации в здравоохранении и медицинских записях
  • Трудовых договорах (обязателен для начисления заработной платы)
  • Оформлении социальных льгот
  • Записях пенсионного счёта

Контрольная сумма: Контрольная цифра TAJ-szám вычисляется по взвешенной сумме: умножить цифры 1–8 на чередующиеся веса (3,7,3,7,3,7,3,7), суммировать, взять по модулю 10. Результат является контрольной цифрой. Этот алгоритм специфичен для Венгрии — он не совпадает с алгоритмом Луна, используемым для шведского personnummer или SIN.

TAJ-szám обнаруживается универсальными инструментами NLP лишь с точностью 61% (оценка NAIH 2024). Основная причина сбоя: 9-значный формат совпадает со многими справочными номерами в венгерских документах, и без контрольной суммы, специфичной для TAJ, инструменты не могут отличить номера TAJ от ложных срабатываний.

Adóazonosító jel: венгерский налоговый идентификационный номер

Adóazonosító jel — 10-значный индивидуальный налоговый идентификационный номер (не следует путать с налоговым номером компании, adószám). Формат: 8XXXXXXXX, где первая цифра всегда 8 (константа), за которой следуют 9 цифр с контрольной цифрой.

Вычисление контрольной цифры: умножить цифры 2–9 на веса (9,7,3,1,9,7,3,1), суммировать, взять по модулю 10. Если результат равен 0, контрольная цифра = 0. В противном случае контрольная цифра равна результату.

Adóazonosító jel фигурирует в трудовых записях, налоговых декларациях, договорах с внештатными подрядчиками и документах финансовых услуг. Правоприменение NAIH выявило, что он часто пропускается в HR-документах, обрабатываемых иностранными инструментами PII.

Требование NAIH к DPIA для систем ИИ

Руководство NAIH 2024 года требует завершённой DPIA перед развёртыванием любой системы ИИ, обрабатывающей персональные данные, — более предписывающий подход, чем основанный на рисках подход GDPR. DPIA должна:

  • Описывать входные данные модели ИИ (обучающие данные, входные данные для вывода) и выходные данные
  • Документировать правовое основание для любой обработки персональных данных
  • Оценивать точность обработки венгерского языка (NAIH специально требует документации точности для языков с показателем ниже среднего по ЕС)
  • Включать механизм участия человека при автоматизированных решениях
  • Ежегодно обновляться при переобучении системы ИИ

Для организаций, развёртывающих инструменты ИИ, обрабатывающие данные венгерских сотрудников, клиентов или граждан: сочетание обязательной DPIA NAIH, разрыва точности NER в 67%, требующего венгерских моделей, и требований к проверке контрольных сумм TAJ-szám и adóazonosító jel формирует особый технический профиль соответствия.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.