anonym.legal
Назад к блогуGDPR и соблюдение

Японский PPC и APPI 2022: закон о конфиденциальности...

PPC Японии применяет поправки APPI 2022, охватывающие 2,4 млн японских предприятий. 12-значный идентификатор My Number требует валидации Верхоффа.

April 21, 202610 мин чтения
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Комиссия по защите персональной информации Японии (PPC) применяет Закон о защите персональной информации (APPI) с поправками 2022 года, которые значительно расширили защиту, введя новые положения о псевдонимизированной информации, ограничениях трансграничной передачи данных и регулировании обучающих данных для ИИ. В 2024 году PPC приняла 45 решений в области правоприменения и опубликовала первое в Японии руководство по конфиденциальности ИИ.

APPI 2022: что изменилось

Поправки 2022 года обязывают 2,4 миллиона японских предприятий обновить политику конфиденциальности и внедрить новые процедуры работы с данными:

Псевдонимизированная информация (仮名加工情報): Новая категория — персональные данные, обработанные таким образом, чтобы удалить идентифицирующую информацию, однако повторная идентификация теоретически возможна с помощью отдельного ключа. Псевдонимизированная информация может передаваться внутри организации без тех же требований к согласию, что и персональные данные, однако не может передаваться третьим сторонам. Это создаёт японскую промежуточную категорию между персональными и анонимизированными данными.

Анонимизированная информация (匿名加工情報): Должна быть обработана таким образом, чтобы повторная идентификация была технически невозможна — что должна подтвердить квалифицированная третья сторона. Японский стандарт анонимизации строже GDPR в одном ключевом аспекте: верификация третьей стороной обязательна, а не опциональна.

Трансграничная передача данных: Поправки 2022 года ужесточили ограничения на передачу данных, требуя, чтобы передача в третьи страны обеспечивала уровень защиты, «равнозначный» японским стандартам. PPC ведёт список одобренных стран. У ЕС есть решение об адекватности с Японией в рамках APPI.

Обучающие данные для ИИ: PPC выпустила руководство 2024 года, прямо регулирующее наборы данных для обучения ИИ. Ключевые требования:

  • Персональные данные, используемые для обучения ИИ, должны быть либо действительно анонимизированы (в соответствии со строгим японским стандартом верификации третьей стороной), либо обработаны на основе конкретного правового основания (как правило, согласия)
  • Исключение «статистической обработки» в APPI применяется к обучению ИИ только в том случае, если результирующая модель не может идентифицировать физических лиц по выходным данным
  • Компании, разрабатывающие LLM с использованием японских персональных данных, собранных с веб-сайтов, должны подтвердить наличие законного основания для сбора

My Number: национальный идентификатор Японии

Японский My Number (マイナンバー) — официально Индивидуальный номер (個人番号) — это 12-значный национальный идентификационный номер, присваиваемый всем жителям Японии, включая иностранных граждан. Начиная с 2016 года он присвоен 1,36 миллиарда жителей Японии и используется для налогового администрирования, социального обеспечения и ликвидации последствий стихийных бедствий.

Техническая структура: My Number использует алгоритм Верхоффа для вычисления контрольной цифры — ту же сложную схему обнаружения ошибок на основе теории групп, что и Aadhaar в Индии. Этот алгоритм значительно сложнее в реализации, чем алгоритм Луна (используемый для шведского personnummer, SIN) и алгоритмы на основе остатков от деления, применяемые большинством европейских национальных идентификаторов.

Сложности обнаружения:

  • Поиск 12-значных чисел по шаблону порождает огромное число ложных срабатываний в японских документах (даты, почтовые индексы в сочетании с номерами телефонов, номера счетов-фактур)
  • Валидация по Верхоффу требует полной реализации таблиц групповых операций — это не простое вычисление по модулю
  • My Number в ряде документов появляется рядом с японскими иероглифами

Техническая оценка PPC 2024 года показала, что 63% развёрнутых инструментов NLP общего назначения не распознают My Number точно в японских документах.

Обработка японского языка: проблема письменности

Японский текст одновременно использует три системы письма — хирагану, катакану и кандзи (китайские иероглифы) — плюс латиницу (ромадзи) в некоторых контекстах. Имена могут быть написаны в любой комбинации этих систем, и одно и то же имя в разных контекстах может выглядеть по-разному.

Проблемы NER, специфичные для японского языка:

  • Распознавание имён требует японскоязычных моделей (spaCy ja_core_news с японской токенизацией)
  • Японский язык не использует пробелы между словами — токенизация сама по себе является отдельным шагом обработки, требующим японских токенизаторов
  • Имена людей, как правило, записываются кандзи с фуриганой (фонетическим руководством на хирагане/катакане) — инструменты должны распознавать как форму в кандзи, так и фонетическую форму
  • Японские названия организаций (会社名, 株式会社) требуют японских шаблонов распознавания

Другие японские идентификаторы

Номер водительского удостоверения: 12-значный формат с префиксом кода префектуры. Коды префектур стандартизированы (Токио = 10, Осака = 62 и т. д.), что позволяет проверить географический компонент.

Японский паспорт: Стандартный формат ИКАО с японскими конвенциями выдачи.

Медицинская страховая карта (健康保険証): Формат: символ страхования (記号) + номер, с вариациями, специфичными для каждого страховщика, в многочисленных схемах медицинского страхования Японии.

Карта резидента (在留カード): Формат для иностранных резидентов — 2 буквы + 8 цифр + 2 буквы с проверкой MOJ.

Статус передачи данных Япония–ЕС

Япония и ЕС имеют взаимные решения об адекватности — персональные данные передаются между ЕС и Японией без дополнительных механизмов передачи. Это двустороннее соглашение (действует с 2019 года) делает Японию одной из немногих неевропейских стран с полноценной адекватностью ЕС.

Взаимная адекватность распространяется на стандартные коммерческие персональные данные. Отдельные категории — конфиденциальные медицинские данные, судимости — требуют дополнительных мер защиты даже в рамках соглашения об адекватности.

Для организаций, обрабатывающих японские персональные данные: обнаружение My Number с валидацией по Верхоффу — наиболее технически сложное требование, а поддержка японского NER с использованием моделей, обученных на текстах на японском языке, — следующее по важности. Двуязычная обработка на японском и английском языках всё чаще требуется транснациональным организациям с операциями в Японии.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.