일본 마이넘버: APPI와 Verhoeff 검증

일본 개인정보보호위원회(PPC)는 2024년에 45건의 집행 결정을 내렸습니다. 일본 최초의 AI 개인정보 지침도 발표했습니다. PPC 연구에 따르면, 범용 NLP 도구의 63%가 일본어 파일에서 마이넘버(マイナンバー) 탐지에 실패합니다. 일본 거주자 데이터를 다루는 팀이라면, 이 격차는 직접적인 APPI 위험을 의미합니다.

마이넘버란

일본은 모든 거주자에게 고유한 12자리 식별자를 부여합니다. 이것이 마이넘버이며, 개인 번호 제도(マイナンバー制度)의 일부입니다. 세금, 연금, 건강보험, 재난 대응에 활용됩니다. 이 식별자는 APPI상 민감 데이터입니다. 수집하거나 공유하려면 법적 근거가 필요합니다.

Verhoeff 검증의 문제

마이넘버는 검증 자리에 Verhoeff 알고리즘을 사용합니다. Verhoeff는 단일 자리 오류를 모두 포착하는 수학적 방법입니다. 인접한 두 자리가 바뀌는 오류도 모두 포착합니다. 작동하려면 세 가지 룩업 테이블이 필요합니다. 암호화 없이는 계산할 수 없습니다. 코드가 필요합니다.

이것이 중요한 이유는 두 가지입니다. 첫째, 일본의 12자리 형식은 많은 다른 코드와 비슷하게 보입니다. 청구서 참조, 문서 ID, 날짜 문자열이 모두 같은 형식을 공유합니다. Verhoeff 검증 없이는 도구가 잘못된 값을 표시합니다. 둘째, 대부분의 도구가 Verhoeff를 사용하지 않습니다. 더 단순한 모듈로 10 또는 모듈로 11 검증을 사용합니다. 마이넘버에는 적용되지 않습니다.

PPC 연구에서 도구의 63%가 검증을 생략하거나 더 단순한 방법을 사용한다고 나타났습니다. 오탐지와 미탐지 두 가지 문제가 동시에 발생합니다.

신용카드에 사용되는 Luhn 알고리즘은 더 단순합니다. 마이넘버는 Luhn을 사용하지 않습니다. Luhn용으로 구축된 도구는 작동하지 않습니다.

세 가지 문자 체계, 하나의 이름

일본어 텍스트는 세 가지 문자 체계를 동시에 사용합니다. 도구는 세 가지를 모두 처리해야 합니다.

히라가나(ひらがな): 문법 및 고유 어휘에 사용됩니다. 기본 46자.

가타카나(カタカナ): 외래어 및 이름에 사용됩니다. 기본 46자. 일본의 외국 이름은 이 문자로 표기됩니다.

한자(漢字): 명사와 이름에 사용하는 기호. 일상적으로 약 2,000자가 사용됩니다.

한 사람의 이름은 네 가지 형태로 나타날 수 있습니다: 한자(田中太郎), 히라가나(たなかたろう), 가타카나(タナカタロウ), 로마자(Tanaka Taro). 도구는 네 가지를 모두 매칭해야 합니다. 하나라도 놓치면, 그 사람 기록의 대부분을 놓치게 됩니다.

탐지해야 할 기타 일본 식별자

운전면허증(運転免許証番号): 12자리. 처음 두 자리가 도도부현을 나타냅니다. 도쿄는 10, 오사카는 62입니다. 이를 통해 도구가 해당 지역에서 값이 유효한지 확인할 수 있습니다.

여권(旅券番号): 두 글자와 일곱 자리 숫자. ICAO 형식. 일본은 특정 글자 조합을 사용합니다.

건강보험증(健康保険証記号番号): 기호와 번호로 구성. 형식은 보험자에 따라 다릅니다. 국민건강보험(国民健康保険)과 협회건강보험(協会けんぽ)은 서로 다른 형식을 사용합니다.

재류카드(在留カード番号): 외국인 거주자용. 두 글자, 여덟 자리 숫자, 두 글자. 법무부가 발급합니다.

APPI의 익명화 규정

APPI는 익명가공정보(匿名加工情報)라는 엄격한 익명화 기준을 갖고 있습니다. 한 가지 핵심 영역에서 GDPR보다 더 강력합니다. 익명화는 제3자가 검증 가능하고 기술적으로 되돌릴 수 없어야 합니다.

준수하려면 조직이 다음을 해야 합니다:

마이넘버를 포함한 모든 직접 식별자 제거
모든 준식별자 조합 처리
k-익명성 또는 유사한 방법 적용
취한 조치의 일반적 설명 공개
데이터 재식별 시도 금지

PPC의 2024년 AI 지침은 구체적인 규정을 추가합니다. 익명화된 데이터로 AI를 학습시킨 경우, 그 모델을 사람 재식별에 사용할 수 없습니다. 이는 APPI 학습 세트에 대한 모델 역추출 공격의 직접적 금지입니다.

PPC 기준을 충족하려면 네 가지가 필요합니다. 첫째, 마이넘버 탐지를 위한 Verhoeff 검증. 둘째, 적절한 토큰화를 갖춘 ja_core_news를 사용하는 일본어 NER. 셋째, 한자, 가나, 로마자 전반에 걸친 이름 매칭. 넷째, 운전면허증의 도도부현 코드 확인.

인도의 Aadhaar도 Verhoeff 검증이 필요합니다. 인도 DPDPA 기술 컴플라이언스 가이드에서 자세히 다루고 있습니다. 다국가 식별자 탐지에 대해서는 GDPR에 따른 EU 국가 세금 ID 탐지를 참조하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

일본 마이넘버: Verhoeff 알고리즘과 APPI

일본 마이넘버: APPI와 Verhoeff 검증

마이넘버란

Verhoeff 검증의 문제

세 가지 문자 체계, 하나의 이름

탐지해야 할 기타 일본 식별자

APPI의 익명화 규정

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

일본 마이넘버: Verhoeff 알고리즘과 APPI

일본 마이넘버: APPI와 Verhoeff 검증

마이넘버란

Verhoeff 검증의 문제

세 가지 문자 체계, 하나의 이름

탐지해야 할 기타 일본 식별자

APPI의 익명화 규정

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow