Японская PPC и APPI: соответствие требованиям при обучении ИИ

Японская Комиссия по защите персональных данных (PPC) обеспечивает исполнение закона APPI. Поправки 2022 года изменили закон масштабнее любых предыдущих редакций. Они добавили правила для псевдонимизированных записей, трансграничных передач данных и обучающих наборов ИИ. В 2024 году PPC вынесла 45 решений и опубликовала первое японское руководство по конфиденциальности в сфере ИИ.

Если ваша компания обучает модели на японских текстах или хранит данные японских пользователей — эти правила уже применяются к вам.

Что изменили поправки 2022 года

2,4 миллиона японских компаний были вынуждены пересмотреть политики конфиденциальности и перестроить процессы обработки данных.

Псевдонимизированная информация (仮名加工情報): Новая промежуточная категория. Охватывает персональные данные с удалёнными прямыми идентификаторами. Повторная идентификация всё ещё возможна при наличии ключа. Такие данные можно передавать внутри организации без полного согласия. Третьим сторонам — нельзя. В GDPR подобная категория отсутствует.

Анонимизированная информация (匿名加工情報): Повторная идентификация должна быть технически невозможна. Это должна подтвердить квалифицированная третья сторона. Японские требования строже, чем в GDPR: там такая проверка факультативна, здесь — обязательна.

Трансграничные передачи: Передача данных в другие страны должна обеспечивать уровень защиты не ниже японского. PPC ведёт список одобренных стран. Евросоюз в этот список входит.

Обучающие наборы ИИ: Руководство PPC 2024 года напрямую касается этого вопроса.

Обучающие наборы должны быть полностью анонимизированы или иметь законное правовое основание — как правило, согласие.
Исключение для обработки применяется только в том случае, если модель не может идентифицировать людей по своим выходным данным.
Разработчики LLM, обучающие модели на японских данных, собранных с сайтов, обязаны подтвердить законность сбора.

Полный обзор обязанностей по трансграничному соответствию — на странице /legal/compliance.

My Number: японский национальный идентификатор

My Number (マイナンバー) — 12-значный национальный идентификатор. Япония присваивает его всем резидентам, включая иностранных граждан. Система действует с 2016 года и охватывает налоги, социальное обеспечение и реагирование на чрезвычайные ситуации.

Как работает контрольная цифра: My Number использует метод Верхоффа — математическую схему проверки ошибок. Она сложнее алгоритма Луна, который применяется для шведского personnummer и канадского SIN. Большинство европейских идентификаторов используют более простую модульную арифметику.

Почему обнаружение затруднено: Простой поиск 12-значных строк не даст результата. Даты, почтовые индексы и коды счетов выглядят так же. Для их различения необходима полная логика Верхоффа — регулярных выражений недостаточно.

Аудит PPC 2024 года показал неутешительные результаты: 63% универсальных инструментов NLP не способны обнаружить My Number в японских документах.

Подробнее о том, как anonym.legal работает с My Number — на странице /entities.

Три системы письма одновременно

Японский язык использует хирагану, катакану и кандзи одновременно. В ряде контекстов встречается и латиница. Одно и то же имя может выглядеть по-разному в разных документах. Инструменты, разработанные для текстов на основе латинского алфавита, не справляются с японским без специальной поддержки.

Что это означает для обнаружения имён:

Японская NER требует моделей, обученных на японских текстах. Используйте spaCy ja_core_news.
В японском языке нет пробелов между словами. Разбиение на слова — отдельный этап, требующий специализированных инструментов.
Имена людей записываются кандзи, а произношение указывается хираганой или катаканой. Инструменты должны распознавать обе формы.
Названия компаний (会社名, 株式会社) требуют правил, специфичных для японского языка.

Вопросы NER для языков АТР рассматриваются в разделе /docs/faq.

Другие японские форматы идентификаторов

Водительское удостоверение: 12 цифр с кодом региона выдачи. Коды фиксированы — Токио: 10, Осака: 62. Региональная часть поддаётся проверке.

Паспорт: Стандартный формат ИКАО со специфическими для Японии правилами выдачи.

Карта медицинского страхования (健康保険証): Символ (記号) плюс номер. Формат варьируется в зависимости от страховщика.

Карта вида на жительство (在留カード): Для иностранных резидентов. Формат: две буквы, восемь цифр, две буквы. Выдаётся Министерством юстиции.

Статус передачи данных между Японией и ЕС

С 2019 года Япония и ЕС взаимно признали достаточность защиты данных. Персональные данные могут передаваться между ЕС и Японией без дополнительных формальностей. Япония — одна из немногих неевропейских стран, получивших полное решение об адекватности от ЕС.

Договорённость распространяется на стандартные персональные данные. Конфиденциальные данные о здоровье и судимостях требуют дополнительных гарантий даже в рамках решения об адекватности. Компании, передающие такие данные, обязаны фиксировать принятые дополнительные меры.

Проверьте свои обязательства по передаче данных на странице /security-compliance.

Контрольный список по соответствию требованиям Японии

С чего начать, если вы работаете с японскими персональными данными:

Обнаружение My Number с логикой проверки контрольной цифры по методу Верхоффа.
Японская NER с моделями, обученными на текстах на японской графике — не на латиноязычных моделях.
Поддержка имён в формах кандзи, хираганы и катаканы, включая варианты с подсказками чтения.
Обнаружение водительского удостоверения с проверкой кода региона.
Обнаружение карты вида на жительство с логикой формата Министерства юстиции.
Обнаружение карты медицинского страхования с учётом вариаций по страховщикам.
Законное правовое основание для каждого обучающего набора ИИ, содержащего персональные данные.
Независимая проверка для любых данных, классифицированных как анонимные по APPI.
Дополнительные гарантии для конфиденциальных данных, передаваемых в рамках соглашения об адекватности между ЕС и Японией.

Определения терминов APPI, используемых в этом руководстве — в /docs/glossary.

Источники

Связанные статьи

GDPR и соблюдение

Самостоятельный PII не проходит аудиты соответствия

spaCy 3.4.4 даёт результаты NER, отличающиеся от spaCy 3.5.1. Финансовая компания обнаружила, что 3% документов были анонимизированы по-разному в staging и продакшне.

GDPR и соблюдение

Presidio не охватывает 220+ сущностей GDPR

Presidio поставляется примерно с 40 распознавателями сущностей по умолчанию, ориентированными на американские идентификаторы. Европейским организациям нужны IBAN, Codice Fiscale и другие.

GDPR и соблюдение

Смещение конфигурации: скрытый риск для соответствия GDPR

Аналитик A заменяет имена псевдонимами. Аналитик B скрывает их. Ваш GDPR-аудит обнаруживает оба подхода в одном наборе данных. Смещение конфигурации — ситуация, когда в команде нет единства в настройках — создаёт аудиторские риски даже без утечки данных.

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

Начать бесплатный пробный период Посмотреть функции

Японская PPC и APPI: соответствие требованиям при обучении ИИ