anonym.legal

By · Last updated 2026-06-05

Назад к блогуGDPR и соблюдение

Японская PPC и APPI: соответствие требованиям при обучении ИИ

Японская PPC обеспечивает исполнение APPI 2022 года, охватывающего 2,4 млн японских компаний. 12-значный идентификатор My Number требует проверки алгоритмом Верхоффа.

June 5, 202610 мин чтения
Japan PPCAPPI complianceMy Number detectionJapanese privacy lawAsia Pacific

Японская PPC и APPI: соответствие требованиям при обучении ИИ

Японская Комиссия по защите персональных данных (PPC) обеспечивает исполнение закона APPI. Поправки 2022 года изменили закон масштабнее любых предыдущих редакций. Они добавили правила для псевдонимизированных записей, трансграничных передач данных и обучающих наборов ИИ. В 2024 году PPC вынесла 45 решений и опубликовала первое японское руководство по конфиденциальности в сфере ИИ.

Если ваша компания обучает модели на японских текстах или хранит данные японских пользователей — эти правила уже применяются к вам.

Что изменили поправки 2022 года

2,4 миллиона японских компаний были вынуждены пересмотреть политики конфиденциальности и перестроить процессы обработки данных.

Псевдонимизированная информация (仮名加工情報): Новая промежуточная категория. Охватывает персональные данные с удалёнными прямыми идентификаторами. Повторная идентификация всё ещё возможна при наличии ключа. Такие данные можно передавать внутри организации без полного согласия. Третьим сторонам — нельзя. В GDPR подобная категория отсутствует.

Анонимизированная информация (匿名加工情報): Повторная идентификация должна быть технически невозможна. Это должна подтвердить квалифицированная третья сторона. Японские требования строже, чем в GDPR: там такая проверка факультативна, здесь — обязательна.

Трансграничные передачи: Передача данных в другие страны должна обеспечивать уровень защиты не ниже японского. PPC ведёт список одобренных стран. Евросоюз в этот список входит.

Обучающие наборы ИИ: Руководство PPC 2024 года напрямую касается этого вопроса.

  • Обучающие наборы должны быть полностью анонимизированы или иметь законное правовое основание — как правило, согласие.
  • Исключение для обработки применяется только в том случае, если модель не может идентифицировать людей по своим выходным данным.
  • Разработчики LLM, обучающие модели на японских данных, собранных с сайтов, обязаны подтвердить законность сбора.

Полный обзор обязанностей по трансграничному соответствию — на странице /legal/compliance.

My Number: японский национальный идентификатор

My Number (マイナンバー) — 12-значный национальный идентификатор. Япония присваивает его всем резидентам, включая иностранных граждан. Система действует с 2016 года и охватывает налоги, социальное обеспечение и реагирование на чрезвычайные ситуации.

Как работает контрольная цифра: My Number использует метод Верхоффа — математическую схему проверки ошибок. Она сложнее алгоритма Луна, который применяется для шведского personnummer и канадского SIN. Большинство европейских идентификаторов используют более простую модульную арифметику.

Почему обнаружение затруднено: Простой поиск 12-значных строк не даст результата. Даты, почтовые индексы и коды счетов выглядят так же. Для их различения необходима полная логика Верхоффа — регулярных выражений недостаточно.

Аудит PPC 2024 года показал неутешительные результаты: 63% универсальных инструментов NLP не способны обнаружить My Number в японских документах.

Подробнее о том, как anonym.legal работает с My Number — на странице /entities.

Три системы письма одновременно

Японский язык использует хирагану, катакану и кандзи одновременно. В ряде контекстов встречается и латиница. Одно и то же имя может выглядеть по-разному в разных документах. Инструменты, разработанные для текстов на основе латинского алфавита, не справляются с японским без специальной поддержки.

Что это означает для обнаружения имён:

  • Японская NER требует моделей, обученных на японских текстах. Используйте spaCy ja_core_news.
  • В японском языке нет пробелов между словами. Разбиение на слова — отдельный этап, требующий специализированных инструментов.
  • Имена людей записываются кандзи, а произношение указывается хираганой или катаканой. Инструменты должны распознавать обе формы.
  • Названия компаний (会社名, 株式会社) требуют правил, специфичных для японского языка.

Вопросы NER для языков АТР рассматриваются в разделе /docs/faq.

Другие японские форматы идентификаторов

Водительское удостоверение: 12 цифр с кодом региона выдачи. Коды фиксированы — Токио: 10, Осака: 62. Региональная часть поддаётся проверке.

Паспорт: Стандартный формат ИКАО со специфическими для Японии правилами выдачи.

Карта медицинского страхования (健康保険証): Символ (記号) плюс номер. Формат варьируется в зависимости от страховщика.

Карта вида на жительство (在留カード): Для иностранных резидентов. Формат: две буквы, восемь цифр, две буквы. Выдаётся Министерством юстиции.

Статус передачи данных между Японией и ЕС

С 2019 года Япония и ЕС взаимно признали достаточность защиты данных. Персональные данные могут передаваться между ЕС и Японией без дополнительных формальностей. Япония — одна из немногих неевропейских стран, получивших полное решение об адекватности от ЕС.

Договорённость распространяется на стандартные персональные данные. Конфиденциальные данные о здоровье и судимостях требуют дополнительных гарантий даже в рамках решения об адекватности. Компании, передающие такие данные, обязаны фиксировать принятые дополнительные меры.

Проверьте свои обязательства по передаче данных на странице /security-compliance.

Контрольный список по соответствию требованиям Японии

С чего начать, если вы работаете с японскими персональными данными:

  • Обнаружение My Number с логикой проверки контрольной цифры по методу Верхоффа.
  • Японская NER с моделями, обученными на текстах на японской графике — не на латиноязычных моделях.
  • Поддержка имён в формах кандзи, хираганы и катаканы, включая варианты с подсказками чтения.
  • Обнаружение водительского удостоверения с проверкой кода региона.
  • Обнаружение карты вида на жительство с логикой формата Министерства юстиции.
  • Обнаружение карты медицинского страхования с учётом вариаций по страховщикам.
  • Законное правовое основание для каждого обучающего набора ИИ, содержащего персональные данные.
  • Независимая проверка для любых данных, классифицированных как анонимные по APPI.
  • Дополнительные гарантии для конфиденциальных данных, передаваемых в рамках соглашения об адекватности между ЕС и Японией.

Определения терминов APPI, используемых в этом руководстве — в /docs/glossary.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.