Комиссия по защите персональной информации Японии (PPC) вынесла 45 решений в области правоприменения в 2024 году и опубликовала первое в Японии руководство по конфиденциальности ИИ. Техническая оценка PPC 2024 года показала, что 63% универсальных инструментов NLP, развёрнутых для обработки японских документов, не способны точно обнаружить My Number (マイナンバー) — японский 12-значный национальный идентификационный номер. Для организаций с операциями в Японии или обрабатывающих данные японских граждан этот пробел создаёт прямой риск несоответствия APPI.
My Number: сложность валидации по Верхоффу
Японская система индивидуальных номеров (マイナンバー制度, Система My Number) присваивает уникальный 12-значный номер каждому жителю Японии (1,36 млрд пользователей). My Number используется для:
- Налогового администрирования (налоговые декларации, справки об удержании)
- Социального обеспечения (пенсия, медицинское страхование)
- Ликвидации последствий стихийных бедствий (идентификация в чрезвычайных ситуациях)
Алгоритм Верхоффа: Контрольная цифра My Number использует алгоритм Верхоффа — алгоритм обнаружения ошибок на основе теории групп, способный обнаруживать все одноцифровые ошибки и все соседние транспозиционные ошибки. Алгоритм использует три таблицы поиска: таблицу умножения диэдральной группы (D5), обратную таблицу и таблицу перестановок.
Реализация Верхоффа требует хранения этих трёх таблиц и применения последовательности поиска. В отличие от алгоритма Луна (простая модульная арифметика), Верхофф нельзя вычислить вручную — он требует программной реализации.
Почему это важно для обнаружения PII:
- 12-значный формат My Number совпадает со многими справочными номерами в японских документах
- Без валидации по Верхоффу инструменты генерируют огромное число ложных срабатываний из номеров счетов-фактур, кодов ссылок на документы и числовых последовательностей дата-время
- Инструменты, реализующие только простые модульные контрольные цифры (modulo 10 или 11), не могут валидировать My Number и будут пропускать номера, требующие Верхоффа для проверки
Оценка PPC 2024 года показала, что 63% развёрнутых инструментов либо ищут по шаблону без валидации, либо реализуют более простые модульные проверки — одновременно генерируя ложные срабатывания и ложные отрицания.
Японское письмо: проблема трёх систем
Японский текст одновременно использует три системы письма:
Хирагана (ひらがな): Фонетический слоговой алфавит для грамматических частиц, окончаний спряжения глаголов и исконно японских слов. 46 базовых символов.
Катакана (カタカナ): Фонетический слоговой алфавит для иностранных слов, технических терминов и выделения. 46 базовых символов. Иностранные имена на японском обычно пишутся катаканой.
Кандзи (漢字): Логографические символы китайского происхождения, используемые для существительных, основ глаголов и имён. В японском используется около 2 000 распространённых кандзи.
Кодирование японских имён: Имя одного и того же японского человека может встречаться в:
- Форме кандзи: 田中太郎
- Хирагане (фонетическая помощь, фуригана): たなかたろう
- Катакане (как иностранный контент): タナカ タロウ
- Ромадзи (латиница): Tanaka Taro или TANAKA Taro (для международных документов)
Инструмент PII должен распознавать все четыре формы одного и того же имени — иначе он рискует пропустить большинство вхождений имён в японских документах.
Японские национальные идентификаторы помимо My Number
Номер водительского удостоверения (運転免許証番号): 12 цифр, начинающихся с 2-значного кода префектуры (10 для Токио, 62 для Осаки и т. д.). Коды префектур позволяют провести географическую валидацию номера.
Японский паспорт (旅券番号): Стандартный формат ИКАО — 2 буквы, за которыми следуют 7 цифр. Японские комбинации букв соответствуют конвенциям выдачи.
Номер медицинской страховой карты (健康保険証記号番号): Формат «символ страхования + номер» варьируется в зависимости от страховщика (в Японии несколько систем медицинского страхования для разных категорий занятости). Национальное медицинское страхование (国民健康保険) отличается от страхования, управляемого обществами (協会けんぽ).
Номер карты резидента (在留カード番号): Для иностранных резидентов — формат 2 буквы + 8 цифр + 2 буквы, выдаётся Министерством юстиции.
Стандарт анонимизированной информации APPI
Японский APPI создаёт более строгий стандарт анонимизации, чем GDPR, в одном конкретном отношении: стандарт «анонимизированной информации» (匿名加工情報) требует, чтобы анонимизация была верифицируема третьей стороной и технически необратима. Организации, создающие анонимизированные наборы данных, должны:
- Удалить или заменить все прямые идентификаторы (включая My Number)
- Обработать все комбинации квазиидентификаторов
- Применить k-анонимность или аналогичный метод
- Опубликовать принятые меры (общее описание без раскрытия специфики реализации)
- Не предпринимать попыток повторной идентификации по анонимизированным данным
Руководство PPC 2024 года по ИИ добавляет: организации, использующие анонимизированные наборы данных для обучения ИИ, не могут использовать результирующую модель ИИ для попытки повторной идентификации лиц из обучающих данных — прямой запрет атак инверсии модели на обучающие наборы, анонимизированные в соответствии с APPI.
Для обработки данных в соответствии с APPI: My Number с валидацией по Верхоффу, японский NER с использованием spaCy ja_core_news с японской токенизацией, многосистемное распознавание имён в формах кандзи/кана/ромадзи и валидация кода префектуры водительского удостоверения — технический минимум для соответствия PPC.
Источники: