By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

Số My Number Nhật Bản: Verhoeff & APPI

63% công cụ phổ thông thất bại trong việc phát hiện My Number trong tài liệu tiếng Nhật. My Number dùng thuật toán Verhoeff — checksum ID quốc gia phức tạp nhất châu Á.

June 5, 20268 phút đọc
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Số My Number Nhật Bản: APPI và kiểm tra Verhoeff

Ủy ban Bảo vệ Thông tin Cá nhân Nhật Bản (PPC) đã ban hành 45 quyết định thực thi vào năm 2024. Cơ quan này cũng công bố hướng dẫn bảo mật AI đầu tiên của Nhật Bản. Một nghiên cứu của PPC phát hiện rằng 63% công cụ NLP phổ thông thất bại trong việc phát hiện My Number (マイナンバー) trong các tệp tiếng Nhật. Nếu nhóm của bạn xử lý dữ liệu của cư dân Nhật Bản, khoảng cách đó đồng nghĩa với rủi ro APPI trực tiếp.

My Number là gì

Nhật Bản cấp cho mỗi cư dân một mã định danh duy nhất gồm 12 chữ số. Đây là My Number, một phần của Hệ thống Số Cá nhân (マイナンバー制度). Nó bao gồm thuế, lương hưu, bảo hiểm y tế và ứng phó thảm họa. Định danh này là dữ liệu nhạy cảm theo APPI. Bạn cần lý do pháp lý để thu thập hoặc chia sẻ nó.

Vấn đề kiểm tra Verhoeff

My Number sử dụng thuật toán Verhoeff cho chữ số kiểm tra của nó. Verhoeff là một phương pháp toán học bắt được tất cả lỗi chữ số đơn. Nó cũng bắt được tất cả lỗi khi hai chữ số liền kề hoán đổi. Nó cần ba bảng tra cứu để hoạt động. Bạn không thể tính tay được. Nó yêu cầu code.

Điều này quan trọng vì hai lý do. Thứ nhất, định dạng 12 chữ số của Nhật Bản trông giống nhiều mã khác. Mã tham chiếu hóa đơn, ID tài liệu và chuỗi ngày tháng đều có cùng định dạng. Không có kiểm tra Verhoeff, công cụ sẽ đánh dấu nhầm các giá trị. Thứ hai, hầu hết các công cụ không dùng Verhoeff. Chúng dùng kiểm tra modulo-10 hoặc modulo-11 đơn giản hơn. Những cách đó không hoạt động ở đây.

Nghiên cứu của PPC phát hiện rằng 63% công cụ bỏ qua kiểm tra hoặc dùng phương pháp đơn giản hơn. Cả hai vấn đề đều xảy ra đồng thời: dương tính giả và âm tính giả.

Thuật toán Luhn, được dùng cho thẻ tín dụng, đơn giản hơn. My Number không dùng Luhn. Các công cụ được xây dựng cho Luhn sẽ không hoạt động.

Ba chữ viết, một cái tên

Văn bản tiếng Nhật dùng ba hệ thống chữ viết cùng lúc. Công cụ phải xử lý cả ba.

Hiragana (ひらがな): Dùng cho ngữ pháp và từ bản địa. 46 ký tự cơ bản.

Katakana (カタカナ): Dùng cho từ nước ngoài và tên người. 46 ký tự cơ bản. Tên người nước ngoài tại Nhật xuất hiện bằng chữ viết này.

Kanji (漢字): Ký hiệu cho danh từ và tên người. Khoảng 2.000 ký tự được dùng phổ biến.

Tên một người có thể xuất hiện ở bốn dạng: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ), và Romaji (Tanaka Taro). Công cụ phải khớp cả bốn. Nếu bỏ lỡ một dạng, nó bỏ lỡ phần lớn hồ sơ của người đó.

Các ID Nhật Bản khác cần phát hiện

Bằng lái xe (運転免許証番号): 12 chữ số. Hai chữ số đầu cho thấy tỉnh. Tokyo là 10. Osaka là 62. Điều này cho phép công cụ kiểm tra xem giá trị có hợp lệ cho khu vực đó không.

Hộ chiếu (旅券番号): Hai chữ cái cộng bảy chữ số. Định dạng ICAO. Nhật Bản dùng các cặp chữ cái cụ thể.

Thẻ bảo hiểm y tế (健康保険証記号番号): Một ký hiệu cộng một số. Định dạng phụ thuộc vào công ty bảo hiểm. Bảo hiểm y tế quốc gia (国民健康保険) và Bảo hiểm quản lý bởi hội (協会けんぽ) dùng các định dạng khác nhau.

Thẻ cư trú (在留カード番号): Dành cho cư dân nước ngoài. Hai chữ cái, tám chữ số, hai chữ cái. Bộ Tư pháp cấp thẻ này.

Quy tắc ẩn danh hóa của APPI

APPI có một tiêu chuẩn dữ liệu ẩn danh nghiêm ngặt gọi là thông tin ẩn danh (匿名加工情報). Nó đi xa hơn GDPR ở một điểm then chốt. Ẩn danh hóa phải có thể xác minh bởi bên thứ bakhông thể đảo ngược về mặt kỹ thuật.

Để tuân thủ, một tổ chức phải:

  1. Xóa tất cả định danh trực tiếp, bao gồm My Number.
  2. Xử lý tất cả các tổ hợp bán định danh.
  3. Dùng k-ẩn danh hoặc phương pháp tương tự.
  4. Công bố mô tả chung về các bước đã thực hiện.
  5. Không bao giờ cố gắng tái định danh dữ liệu.

Hướng dẫn AI 2024 của PPC bổ sung một quy tắc cụ thể. Nếu bạn huấn luyện AI trên dữ liệu ẩn danh, bạn không thể dùng mô hình đó để tái định danh người dùng. Đây là lệnh cấm trực tiếp đối với các cuộc tấn công đảo ngược mô hình vào các bộ dữ liệu huấn luyện theo APPI.

Để đáp ứng tiêu chuẩn PPC, bạn cần bốn thứ. Thứ nhất, xác thực Verhoeff để phát hiện My Number. Thứ hai, NER tiếng Nhật dùng ja_core_news với tokenization đúng cách. Thứ ba, khớp tên qua Kanji, Kana và Romaji. Thứ tư, kiểm tra mã tỉnh cho bằng lái xe.

Ấn Độ dùng Aadhaar, cũng yêu cầu xác thực Verhoeff. Hướng dẫn tuân thủ kỹ thuật DPDPA Ấn Độ đề cập chi tiết điều đó. Để phát hiện định danh đa quốc gia, xem phát hiện mã số thuế EU theo GDPR.

Nguồn tham khảo

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.