anonym.legal

By · Last updated 2026-06-05

Назад к блогуGDPR и соблюдение

My Number Японии: алгоритм Verhoeff и APPI

63% универсальных инструментов не обнаруживают My Number в японских документах. My Number использует алгоритм Verhoeff — наиболее сложную систему контрольных сумм национального идентификатора в Азии.

June 5, 20268 мин чтения
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

My Number Японии: APPI и проверка по алгоритму Verhoeff

Комиссия по защите персональных данных Японии (PPC) вынесла 45 правоприменительных решений в 2024 году и опубликовала первые в стране рекомендации по конфиденциальности в сфере ИИ. Исследование PPC показало, что 63% универсальных NLP-инструментов не обнаруживают My Number (マイナンバー) в японских файлах. Если ваша команда работает с данными японских резидентов, этот пробел создаёт прямой риск несоответствия APPI.

Что такое My Number

Япония присваивает каждому резиденту уникальный 12-значный идентификатор — My Number, часть Системы индивидуальных номеров (マイナンバー制度). Он охватывает налоги, пенсии, медицинское страхование и реагирование на стихийные бедствия. Этот идентификатор является персональными данными по APPI. Для его сбора или передачи требуется законное основание.

Проблема проверки по Verhoeff

My Number использует алгоритм Verhoeff для контрольной цифры. Verhoeff — математический метод, выявляющий все однозначные ошибки, а также все перестановки двух соседних цифр. Для работы требуются три таблицы подстановки. Вычислить вручную невозможно — нужен программный код.

Это важно по двум причинам. Во-первых, 12-значный формат Японии схож со многими другими кодами: номерами счетов, идентификаторами документов и строками дат. Без проверки по Verhoeff инструмент будет отмечать ложные совпадения. Во-вторых, большинство инструментов не используют Verhoeff — они применяют более простые проверки по модулю 10 или 11, которые здесь не работают.

Исследование PPC показало, что 63% инструментов либо пропускают проверку, либо используют упрощённый метод. Оба дефекта возникают одновременно: ложноположительные и ложноотрицательные срабатывания.

Алгоритм Luhn, используемый для банковских карт, проще. My Number его не использует. Инструменты, созданные под Luhn, не подходят.

Три письменности, одно имя

Японский текст одновременно использует три системы письма. Инструмент должен обрабатывать все три.

Хирагана (ひらがな): используется для грамматики и исконных слов. 46 базовых символов.

Катакана (カタカナ): используется для иностранных слов и имён. 46 базовых символов. Иностранные имена в Японии записываются именно этой письменностью.

Кандзи (漢字): символы для существительных и имён. В общем употреблении около 2 000 знаков.

Имя одного человека может быть представлено в четырёх формах: кандзи (田中太郎), хирагана (たなかたろう), катакана (タナカ タロウ) и ромадзи (Tanaka Taro). Инструмент должен распознавать все четыре. Если какая-то форма пропущена — пропускается большинство записей этого человека.

Другие японские идентификаторы для обнаружения

Водительское удостоверение (運転免許証番号): 12 цифр. Первые две указывают префектуру. Токио — 10, Осака — 62. Это позволяет инструменту проверить, является ли значение допустимым для данного региона.

Паспорт (旅券番号): две буквы плюс семь цифр. Формат ICAO. Япония использует определённые буквенные пары.

Карточка медицинского страхования (健康保険証記号番号): символ плюс номер. Формат зависит от страховщика. Национальное медицинское страхование (国民健康保険) и корпоративное страхование (協会けんぽ) используют разные форматы.

Карта резидента (在留カード番号): для иностранных резидентов. Две буквы, восемь цифр, две буквы. Карту выдаёт Министерство юстиции.

Правило анонимизации по APPI

APPI устанавливает строгий стандарт анонимизированных данных — «анонимизированная информация» (匿名加工情報). В одном ключевом аспекте он превосходит GDPR по строгости. Анонимизация должна быть верифицируемой третьими лицами и технически необратимой.

Для соответствия организация должна:

  1. Удалить все прямые идентификаторы, включая My Number.
  2. Устранить все комбинации квазиидентификаторов.
  3. Применить k-анонимность или аналогичный метод.
  4. Опубликовать общее описание предпринятых шагов.
  5. Никогда не пытаться повторно идентифицировать данные.

Руководство PPC по ИИ 2024 года добавляет отдельное правило: если вы обучаете ИИ на анонимизированных данных, вы не можете использовать эту модель для повторной идентификации людей. Это прямой запрет атак инверсии модели на обучающие выборки, созданные в соответствии с APPI.

Для соответствия стандартам PPC необходимо четыре условия. Первое: валидация по Verhoeff для обнаружения My Number. Второе: японское NER с использованием ja_core_news и корректной токенизацией. Третье: сопоставление имён в форматах кандзи, кана и ромадзи. Четвёртое: проверка кодов префектур для водительских удостоверений.

Индия использует Aadhaar, также требующий проверки по Verhoeff. Подробности — в техническом руководстве по соответствию DPDPA Индии. Для обнаружения идентификаторов нескольких стран см. обнаружение национальных налоговых идентификаторов ЕС в соответствии с GDPR.

Источники

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.