My Number Японии: APPI и проверка по алгоритму Verhoeff
Комиссия по защите персональных данных Японии (PPC) вынесла 45 правоприменительных решений в 2024 году и опубликовала первые в стране рекомендации по конфиденциальности в сфере ИИ. Исследование PPC показало, что 63% универсальных NLP-инструментов не обнаруживают My Number (マイナンバー) в японских файлах. Если ваша команда работает с данными японских резидентов, этот пробел создаёт прямой риск несоответствия APPI.
Что такое My Number
Япония присваивает каждому резиденту уникальный 12-значный идентификатор — My Number, часть Системы индивидуальных номеров (マイナンバー制度). Он охватывает налоги, пенсии, медицинское страхование и реагирование на стихийные бедствия. Этот идентификатор является персональными данными по APPI. Для его сбора или передачи требуется законное основание.
Проблема проверки по Verhoeff
My Number использует алгоритм Verhoeff для контрольной цифры. Verhoeff — математический метод, выявляющий все однозначные ошибки, а также все перестановки двух соседних цифр. Для работы требуются три таблицы подстановки. Вычислить вручную невозможно — нужен программный код.
Это важно по двум причинам. Во-первых, 12-значный формат Японии схож со многими другими кодами: номерами счетов, идентификаторами документов и строками дат. Без проверки по Verhoeff инструмент будет отмечать ложные совпадения. Во-вторых, большинство инструментов не используют Verhoeff — они применяют более простые проверки по модулю 10 или 11, которые здесь не работают.
Исследование PPC показало, что 63% инструментов либо пропускают проверку, либо используют упрощённый метод. Оба дефекта возникают одновременно: ложноположительные и ложноотрицательные срабатывания.
Алгоритм Luhn, используемый для банковских карт, проще. My Number его не использует. Инструменты, созданные под Luhn, не подходят.
Три письменности, одно имя
Японский текст одновременно использует три системы письма. Инструмент должен обрабатывать все три.
Хирагана (ひらがな): используется для грамматики и исконных слов. 46 базовых символов.
Катакана (カタカナ): используется для иностранных слов и имён. 46 базовых символов. Иностранные имена в Японии записываются именно этой письменностью.
Кандзи (漢字): символы для существительных и имён. В общем употреблении около 2 000 знаков.
Имя одного человека может быть представлено в четырёх формах: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカ タロウ) и ромадзи (Tanaka Taro). Инструмент должен распознавать все четыре. Если какая-то форма пропущена — пропускается большинство записей этого человека.
Другие японские идентификаторы для обнаружения
Водительское удостоверение (運転免許証番号): 12 цифр. Первые две указывают префектуру. Токио — 10, Осака — 62. Это позволяет инструменту проверить, является ли значение допустимым для данного региона.
Паспорт (旅券番号): две буквы плюс семь цифр. Формат ICAO. Япония использует определённые буквенные пары.
Карточка медицинского страхования (健康保険証記号番号): символ плюс номер. Формат зависит от страховщика. Национальное медицинское страхование (国民健康保険) и корпоративное страхование (協会けんぽ) используют разные форматы.
Карта резидента (在留カード番号): для иностранных резидентов. Две буквы, восемь цифр, две буквы. Карту выдаёт Министерство юстиции.
Правило анонимизации по APPI
APPI устанавливает строгий стандарт анонимизированных данных — «анонимизированная информация» (匿名加工情報). В одном ключевом аспекте он превосходит GDPR по строгости. Анонимизация должна быть верифицируемой третьими лицами и технически необратимой.
Для соответствия организация должна:
- Удалить все прямые идентификаторы, включая My Number.
- Устранить все комбинации квазиидентификаторов.
- Применить k-анонимность или аналогичный метод.
- Опубликовать общее описание предпринятых шагов.
- Никогда не пытаться повторно идентифицировать данные.
Руководство PPC по ИИ 2024 года добавляет отдельное правило: если вы обучаете ИИ на анонимизированных данных, вы не можете использовать эту модель для повторной идентификации людей. Это прямой запрет атак инверсии модели на обучающие выборки, созданные в соответствии с APPI.
Для соответствия стандартам PPC необходимо четыре условия. Первое: валидация по Verhoeff для обнаружения My Number. Второе: японское NER с использованием ja_core_news и корректной токенизацией. Третье: сопоставление имён в форматах кандзи, кана и ромадзи. Четвёртое: проверка кодов префектур для водительских удостоверений.
Индия использует Aadhaar, также требующий проверки по Verhoeff. Подробности — в техническом руководстве по соответствию DPDPA Индии. Для обнаружения идентификаторов нескольких стран см. обнаружение национальных налоговых идентификаторов ЕС в соответствии с GDPR.