By · Last updated 2026-06-05

블로그로 돌아가기GDPR 및 준수

일본 마이넘버: Verhoeff 알고리즘과 APPI

범용 도구의 63%가 일본어 문서에서 마이넘버 탐지에 실패합니다. 마이넘버는 아시아 국가 ID 중 가장 복잡한 체크섬인 Verhoeff 알고리즘을 사용합니다.

June 5, 20268 분 읽기
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

일본 마이넘버: APPI와 Verhoeff 검증

일본 개인정보보호위원회(PPC)는 2024년에 45건의 집행 결정을 내렸습니다. 일본 최초의 AI 개인정보 지침도 발표했습니다. PPC 연구에 따르면, 범용 NLP 도구의 63%가 일본어 파일에서 마이넘버(マイナンバー) 탐지에 실패합니다. 일본 거주자 데이터를 다루는 팀이라면, 이 격차는 직접적인 APPI 위험을 의미합니다.

마이넘버란

일본은 모든 거주자에게 고유한 12자리 식별자를 부여합니다. 이것이 마이넘버이며, 개인 번호 제도(マイナンバー制度)의 일부입니다. 세금, 연금, 건강보험, 재난 대응에 활용됩니다. 이 식별자는 APPI상 민감 데이터입니다. 수집하거나 공유하려면 법적 근거가 필요합니다.

Verhoeff 검증의 문제

마이넘버는 검증 자리에 Verhoeff 알고리즘을 사용합니다. Verhoeff는 단일 자리 오류를 모두 포착하는 수학적 방법입니다. 인접한 두 자리가 바뀌는 오류도 모두 포착합니다. 작동하려면 세 가지 룩업 테이블이 필요합니다. 암호화 없이는 계산할 수 없습니다. 코드가 필요합니다.

이것이 중요한 이유는 두 가지입니다. 첫째, 일본의 12자리 형식은 많은 다른 코드와 비슷하게 보입니다. 청구서 참조, 문서 ID, 날짜 문자열이 모두 같은 형식을 공유합니다. Verhoeff 검증 없이는 도구가 잘못된 값을 표시합니다. 둘째, 대부분의 도구가 Verhoeff를 사용하지 않습니다. 더 단순한 모듈로 10 또는 모듈로 11 검증을 사용합니다. 마이넘버에는 적용되지 않습니다.

PPC 연구에서 도구의 63%가 검증을 생략하거나 더 단순한 방법을 사용한다고 나타났습니다. 오탐지와 미탐지 두 가지 문제가 동시에 발생합니다.

신용카드에 사용되는 Luhn 알고리즘은 더 단순합니다. 마이넘버는 Luhn을 사용하지 않습니다. Luhn용으로 구축된 도구는 작동하지 않습니다.

세 가지 문자 체계, 하나의 이름

일본어 텍스트는 세 가지 문자 체계를 동시에 사용합니다. 도구는 세 가지를 모두 처리해야 합니다.

히라가나(ひらがな): 문법 및 고유 어휘에 사용됩니다. 기본 46자.

가타카나(カタカナ): 외래어 및 이름에 사용됩니다. 기본 46자. 일본의 외국 이름은 이 문자로 표기됩니다.

한자(漢字): 명사와 이름에 사용하는 기호. 일상적으로 약 2,000자가 사용됩니다.

한 사람의 이름은 네 가지 형태로 나타날 수 있습니다: 한자(田中太郎), 히라가나(たなかたろう), 가타카나(タナカ タロウ), 로마자(Tanaka Taro). 도구는 네 가지를 모두 매칭해야 합니다. 하나라도 놓치면, 그 사람 기록의 대부분을 놓치게 됩니다.

탐지해야 할 기타 일본 식별자

운전면허증(運転免許証番号): 12자리. 처음 두 자리가 도도부현을 나타냅니다. 도쿄는 10, 오사카는 62입니다. 이를 통해 도구가 해당 지역에서 값이 유효한지 확인할 수 있습니다.

여권(旅券番号): 두 글자와 일곱 자리 숫자. ICAO 형식. 일본은 특정 글자 조합을 사용합니다.

건강보험증(健康保険証記号番号): 기호와 번호로 구성. 형식은 보험자에 따라 다릅니다. 국민건강보험(国民健康保険)과 협회건강보험(協会けんぽ)은 서로 다른 형식을 사용합니다.

재류카드(在留カード番号): 외국인 거주자용. 두 글자, 여덟 자리 숫자, 두 글자. 법무부가 발급합니다.

APPI의 익명화 규정

APPI는 익명가공정보(匿名加工情報)라는 엄격한 익명화 기준을 갖고 있습니다. 한 가지 핵심 영역에서 GDPR보다 더 강력합니다. 익명화는 제3자가 검증 가능하고 기술적으로 되돌릴 수 없어야 합니다.

준수하려면 조직이 다음을 해야 합니다:

  1. 마이넘버를 포함한 모든 직접 식별자 제거
  2. 모든 준식별자 조합 처리
  3. k-익명성 또는 유사한 방법 적용
  4. 취한 조치의 일반적 설명 공개
  5. 데이터 재식별 시도 금지

PPC의 2024년 AI 지침은 구체적인 규정을 추가합니다. 익명화된 데이터로 AI를 학습시킨 경우, 그 모델을 사람 재식별에 사용할 수 없습니다. 이는 APPI 학습 세트에 대한 모델 역추출 공격의 직접적 금지입니다.

PPC 기준을 충족하려면 네 가지가 필요합니다. 첫째, 마이넘버 탐지를 위한 Verhoeff 검증. 둘째, 적절한 토큰화를 갖춘 ja_core_news를 사용하는 일본어 NER. 셋째, 한자, 가나, 로마자 전반에 걸친 이름 매칭. 넷째, 운전면허증의 도도부현 코드 확인.

인도의 Aadhaar도 Verhoeff 검증이 필요합니다. 인도 DPDPA 기술 컴플라이언스 가이드에서 자세히 다루고 있습니다. 다국가 식별자 탐지에 대해서는 GDPR에 따른 EU 국가 세금 ID 탐지를 참조하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.