My Number Японии: APPI и проверка по алгоритму Verhoeff

Комиссия по защите персональных данных Японии (PPC) вынесла 45 правоприменительных решений в 2024 году и опубликовала первые в стране рекомендации по конфиденциальности в сфере ИИ. Исследование PPC показало, что 63% универсальных NLP-инструментов не обнаруживают My Number (マイナンバー) в японских файлах. Если ваша команда работает с данными японских резидентов, этот пробел создаёт прямой риск несоответствия APPI.

Что такое My Number

Япония присваивает каждому резиденту уникальный 12-значный идентификатор — My Number, часть Системы индивидуальных номеров (マイナンバー制度). Он охватывает налоги, пенсии, медицинское страхование и реагирование на стихийные бедствия. Этот идентификатор является персональными данными по APPI. Для его сбора или передачи требуется законное основание.

Проблема проверки по Verhoeff

My Number использует алгоритм Verhoeff для контрольной цифры. Verhoeff — математический метод, выявляющий все однозначные ошибки, а также все перестановки двух соседних цифр. Для работы требуются три таблицы подстановки. Вычислить вручную невозможно — нужен программный код.

Это важно по двум причинам. Во-первых, 12-значный формат Японии схож со многими другими кодами: номерами счетов, идентификаторами документов и строками дат. Без проверки по Verhoeff инструмент будет отмечать ложные совпадения. Во-вторых, большинство инструментов не используют Verhoeff — они применяют более простые проверки по модулю 10 или 11, которые здесь не работают.

Исследование PPC показало, что 63% инструментов либо пропускают проверку, либо используют упрощённый метод. Оба дефекта возникают одновременно: ложноположительные и ложноотрицательные срабатывания.

Алгоритм Luhn, используемый для банковских карт, проще. My Number его не использует. Инструменты, созданные под Luhn, не подходят.

Три письменности, одно имя

Японский текст одновременно использует три системы письма. Инструмент должен обрабатывать все три.

Хирагана (ひらがな): используется для грамматики и исконных слов. 46 базовых символов.

Катакана (カタカナ): используется для иностранных слов и имён. 46 базовых символов. Иностранные имена в Японии записываются именно этой письменностью.

Кандзи (漢字): символы для существительных и имён. В общем употреблении около 2 000 знаков.

Имя одного человека может быть представлено в четырёх формах: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカタロウ) и ромадзи (Tanaka Taro). Инструмент должен распознавать все четыре. Если какая-то форма пропущена — пропускается большинство записей этого человека.

Другие японские идентификаторы для обнаружения

Водительское удостоверение (運転免許証番号): 12 цифр. Первые две указывают префектуру. Токио — 10, Осака — 62. Это позволяет инструменту проверить, является ли значение допустимым для данного региона.

Паспорт (旅券番号): две буквы плюс семь цифр. Формат ICAO. Япония использует определённые буквенные пары.

Карточка медицинского страхования (健康保険証記号番号): символ плюс номер. Формат зависит от страховщика. Национальное медицинское страхование (国民健康保険) и корпоративное страхование (協会けんぽ) используют разные форматы.

Карта резидента (在留カード番号): для иностранных резидентов. Две буквы, восемь цифр, две буквы. Карту выдаёт Министерство юстиции.

Правило анонимизации по APPI

APPI устанавливает строгий стандарт анонимизированных данных — «анонимизированная информация» (匿名加工情報). В одном ключевом аспекте он превосходит GDPR по строгости. Анонимизация должна быть верифицируемой третьими лицами и технически необратимой.

Для соответствия организация должна:

Удалить все прямые идентификаторы, включая My Number.
Устранить все комбинации квазиидентификаторов.
Применить k-анонимность или аналогичный метод.
Опубликовать общее описание предпринятых шагов.
Никогда не пытаться повторно идентифицировать данные.

Руководство PPC по ИИ 2024 года добавляет отдельное правило: если вы обучаете ИИ на анонимизированных данных, вы не можете использовать эту модель для повторной идентификации людей. Это прямой запрет атак инверсии модели на обучающие выборки, созданные в соответствии с APPI.

Для соответствия стандартам PPC необходимо четыре условия. Первое: валидация по Verhoeff для обнаружения My Number. Второе: японское NER с использованием ja_core_news и корректной токенизацией. Третье: сопоставление имён в форматах кандзи, кана и ромадзи. Четвёртое: проверка кодов префектур для водительских удостоверений.

Индия использует Aadhaar, также требующий проверки по Verhoeff. Подробности — в техническом руководстве по соответствию DPDPA Индии. Для обнаружения идентификаторов нескольких стран см. обнаружение национальных налоговых идентификаторов ЕС в соответствии с GDPR.

Источники

Связанные статьи

GDPR и соблюдение

Самостоятельный PII не проходит аудиты соответствия

spaCy 3.4.4 даёт результаты NER, отличающиеся от spaCy 3.5.1. Финансовая компания обнаружила, что 3% документов были анонимизированы по-разному в staging и продакшне.

GDPR и соблюдение

Presidio не охватывает 220+ сущностей GDPR

Presidio поставляется примерно с 40 распознавателями сущностей по умолчанию, ориентированными на американские идентификаторы. Европейским организациям нужны IBAN, Codice Fiscale и другие.

GDPR и соблюдение

Смещение конфигурации: скрытый риск для соответствия GDPR

Аналитик A заменяет имена псевдонимами. Аналитик B скрывает их. Ваш GDPR-аудит обнаруживает оба подхода в одном наборе данных. Смещение конфигурации — ситуация, когда в команде нет единства в настройках — создаёт аудиторские риски даже без утечки данных.

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

Начать бесплатный пробный период Посмотреть функции

My Number Японии: алгоритм Verhoeff и APPI

My Number Японии: APPI и проверка по алгоритму Verhoeff

Что такое My Number

Проблема проверки по Verhoeff

Три письменности, одно имя

Другие японские идентификаторы для обнаружения

Правило анонимизации по APPI

Источники

Связанные статьи

Самостоятельный PII не проходит аудиты соответствия

Presidio не охватывает 220+ сущностей GDPR

Смещение конфигурации: скрытый риск для соответствия GDPR

Готовы защитить ваши данные?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow