anonym.legal
Назад к блогуGDPR и соблюдение

PPC Японии: валидация My Number по Верхоффу и...

63% универсальных инструментов не справляются с обнаружением My Number в японских документах.

April 21, 20268 мин чтения
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Комиссия по защите персональной информации Японии (PPC) вынесла 45 решений в области правоприменения в 2024 году и опубликовала первое в Японии руководство по конфиденциальности ИИ. Техническая оценка PPC 2024 года показала, что 63% универсальных инструментов NLP, развёрнутых для обработки японских документов, не способны точно обнаружить My Number (マイナンバー) — японский 12-значный национальный идентификационный номер. Для организаций с операциями в Японии или обрабатывающих данные японских граждан этот пробел создаёт прямой риск несоответствия APPI.

My Number: сложность валидации по Верхоффу

Японская система индивидуальных номеров (マイナンバー制度, Система My Number) присваивает уникальный 12-значный номер каждому жителю Японии (1,36 млрд пользователей). My Number используется для:

  • Налогового администрирования (налоговые декларации, справки об удержании)
  • Социального обеспечения (пенсия, медицинское страхование)
  • Ликвидации последствий стихийных бедствий (идентификация в чрезвычайных ситуациях)

Алгоритм Верхоффа: Контрольная цифра My Number использует алгоритм Верхоффа — алгоритм обнаружения ошибок на основе теории групп, способный обнаруживать все одноцифровые ошибки и все соседние транспозиционные ошибки. Алгоритм использует три таблицы поиска: таблицу умножения диэдральной группы (D5), обратную таблицу и таблицу перестановок.

Реализация Верхоффа требует хранения этих трёх таблиц и применения последовательности поиска. В отличие от алгоритма Луна (простая модульная арифметика), Верхофф нельзя вычислить вручную — он требует программной реализации.

Почему это важно для обнаружения PII:

  • 12-значный формат My Number совпадает со многими справочными номерами в японских документах
  • Без валидации по Верхоффу инструменты генерируют огромное число ложных срабатываний из номеров счетов-фактур, кодов ссылок на документы и числовых последовательностей дата-время
  • Инструменты, реализующие только простые модульные контрольные цифры (modulo 10 или 11), не могут валидировать My Number и будут пропускать номера, требующие Верхоффа для проверки

Оценка PPC 2024 года показала, что 63% развёрнутых инструментов либо ищут по шаблону без валидации, либо реализуют более простые модульные проверки — одновременно генерируя ложные срабатывания и ложные отрицания.

Японское письмо: проблема трёх систем

Японский текст одновременно использует три системы письма:

Хирагана (ひらがな): Фонетический слоговой алфавит для грамматических частиц, окончаний спряжения глаголов и исконно японских слов. 46 базовых символов.

Катакана (カタカナ): Фонетический слоговой алфавит для иностранных слов, технических терминов и выделения. 46 базовых символов. Иностранные имена на японском обычно пишутся катаканой.

Кандзи (漢字): Логографические символы китайского происхождения, используемые для существительных, основ глаголов и имён. В японском используется около 2 000 распространённых кандзи.

Кодирование японских имён: Имя одного и того же японского человека может встречаться в:

  • Форме кандзи: 田中太郎
  • Хирагане (фонетическая помощь, фуригана): たなかたろう
  • Катакане (как иностранный контент): タナカ タロウ
  • Ромадзи (латиница): Tanaka Taro или TANAKA Taro (для международных документов)

Инструмент PII должен распознавать все четыре формы одного и того же имени — иначе он рискует пропустить большинство вхождений имён в японских документах.

Японские национальные идентификаторы помимо My Number

Номер водительского удостоверения (運転免許証番号): 12 цифр, начинающихся с 2-значного кода префектуры (10 для Токио, 62 для Осаки и т. д.). Коды префектур позволяют провести географическую валидацию номера.

Японский паспорт (旅券番号): Стандартный формат ИКАО — 2 буквы, за которыми следуют 7 цифр. Японские комбинации букв соответствуют конвенциям выдачи.

Номер медицинской страховой карты (健康保険証記号番号): Формат «символ страхования + номер» варьируется в зависимости от страховщика (в Японии несколько систем медицинского страхования для разных категорий занятости). Национальное медицинское страхование (国民健康保険) отличается от страхования, управляемого обществами (協会けんぽ).

Номер карты резидента (在留カード番号): Для иностранных резидентов — формат 2 буквы + 8 цифр + 2 буквы, выдаётся Министерством юстиции.

Стандарт анонимизированной информации APPI

Японский APPI создаёт более строгий стандарт анонимизации, чем GDPR, в одном конкретном отношении: стандарт «анонимизированной информации» (匿名加工情報) требует, чтобы анонимизация была верифицируема третьей стороной и технически необратима. Организации, создающие анонимизированные наборы данных, должны:

  1. Удалить или заменить все прямые идентификаторы (включая My Number)
  2. Обработать все комбинации квазиидентификаторов
  3. Применить k-анонимность или аналогичный метод
  4. Опубликовать принятые меры (общее описание без раскрытия специфики реализации)
  5. Не предпринимать попыток повторной идентификации по анонимизированным данным

Руководство PPC 2024 года по ИИ добавляет: организации, использующие анонимизированные наборы данных для обучения ИИ, не могут использовать результирующую модель ИИ для попытки повторной идентификации лиц из обучающих данных — прямой запрет атак инверсии модели на обучающие наборы, анонимизированные в соответствии с APPI.

Для обработки данных в соответствии с APPI: My Number с валидацией по Верхоффу, японский NER с использованием spaCy ja_core_news с японской токенизацией, многосистемное распознавание имён в формах кандзи/кана/ромадзи и валидация кода префектуры водительского удостоверения — технический минимум для соответствия PPC.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.