By · Last updated 2026-06-05

ブログに戻るGDPRおよびコンプライアンス

PPC 日本: My Number APPI技術ガイド

日本のPPCによるMy Number(マイナンバー)とAPPI準拠技術ガイド。特別な識別番号の厳格な保護要件。

June 5, 20268 分で読めます
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

マイナンバーとAPPI:Verhoeffチェックの技術ガイド

日本の個人情報保護委員会(PPC)は2024年に45件の執行決定を下しました。また、日本初のAIプライバシーガイダンスも公表しました。PPCの調査では、一般的なNLPツールの63%が日本語文書でのマイナンバー(マイナンバー)検出に失敗することがわかりました。日本の居住者のデータを扱うチームにとって、この欠陥は直接的なAPPIリスクを意味します。

マイナンバーとは

日本はすべての居住者に固有の12桁の識別番号を付与しています。これがマイナンバーで、個人番号制度(マイナンバー制度)の一部です。税務、年金、健康保険、災害対応に使用されます。マイナンバーはAPPIの下で機密データです。収集または共有するには法的な理由が必要です。

Verhoeffチェックの問題

マイナンバーはチェックデジットにVerhoeffアルゴリズムを使用します。Verhoeffはすべての1桁エラーを検出する数学的手法です。また、隣接する2桁が入れ替わるすべてのエラーも検出します。動作するには3つのルックアップテーブルが必要です。手計算することはできません。コードが必要です。

これが重要な理由は2つあります。第1に、日本の12桁フォーマットは他の多くの番号に似ています。請求書コード、参照ID、日付文字列はすべて同じフォーマットを共有しています。Verhoeffチェックなしでは、ツールは誤った番号にフラグを立てます。第2に、ほとんどのツールはVerhoeffを使用していません。より単純なモジュロ10またはモジュロ11のチェックを使用しています。これらはマイナンバーには機能しません。

PPCの調査では、63%のツールがチェックをスキップするか、より単純な方法を使用することがわかりました。両方の問題が同時に発生します:偽陽性と偽陰性です。

クレジットカードに使用されるLuhnアルゴリズムはより単純です。マイナンバーはLuhnを使用しません。Luhn向けに構築されたツールはここでは機能しません。

3つの文字システム、1つの名前

日本語テキストは3つの文字システムを同時に使用します。ツールはすべて3つを処理する必要があります。

ひらがな: 文法と日本語の単語に使用。46の基本文字。

カタカナ: 外来語と名前に使用。46の基本文字。日本での外国人名はこの文字で表記されます。

漢字: 名詞と名前のための文字。約2,000文字が一般的に使用されています。

1人の名前は4つの形式で現れる可能性があります:漢字(田中太郎)、ひらがな(たなかたろう)、カタカナ(タナカ タロウ)、ローマ字(Tanaka Taro)。ツールはすべての4つに一致する必要があります。1つ見逃すと、その人の記録のほとんどを見逃します。

検出すべき他の日本の識別子

運転免許証番号: 12桁。最初の2桁は都道府県を示します。東京は10。大阪は62。これにより、ツールはその地域で番号が有効かどうかを確認できます。

パスポート(旅券番号): 2文字と7桁。ICAOフォーマット。日本は特定の文字ペアを使用します。

健康保険証記号番号: 記号と番号。フォーマットは保険者によって異なります。国民健康保険と協会けんぽは異なるフォーマットを使用します。

在留カード番号: 外国人居住者向け。2文字、8桁、2文字。法務省がこのカードを発行します。

APPIの匿名化ルール

APPIには匿名加工情報と呼ばれる厳格な匿名化データ基準があります。これはGDPRを1つの重要な点で超えています。匿名化は第三者が検証可能技術的に不可逆でなければなりません。

準拠するために、組織は次のことを行う必要があります:

  1. マイナンバーを含むすべての直接識別子を削除する。
  2. すべての準識別子の組み合わせを処理する。
  3. k匿名性または類似の方法を使用する。
  4. 実施した措置の一般的な説明を公表する。
  5. データの再識別を試みない。

PPCの2024年AIガイダンスは特定のルールを追加します。匿名化データでAIを訓練した場合、そのモデルを使用して人物を再識別することはできません。これはAPPI訓練セットに対するモデル反転攻撃の直接的な禁止です。

PPC基準を満たすには4つのことが必要です。第1に、マイナンバーのVerhoeff検証。第2に、適切なトークン化を備えたja_core_newsを使用した日本語NER。第3に、漢字、仮名、ローマ字にわたる名前照合。第4に、運転免許証番号の都道府県コードチェックです。

インドはAadhaarを使用しており、こちらもVerhoeff検証が必要です。インドDPDP法技術コンプライアンスガイドでその詳細を説明しています。複数の国にわたる国家識別子検出については、GDPRに基づくEU税ID検出をご覧ください。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.