Tilbake til BloggGDPR & Overholdelse

Japan PPC: My Number Verhoeff-validering og japansk språk PII-detektering for APPI-overholdelse

63% av generiske verktøy feiler My Number-detektering i japanske dokumenter. My Number bruker Verhoeff-algoritmen — den mest komplekse nasjonale ID-sjekksummen i Asia. Japansk skript NER krever dedikerte språkmodeller.

March 7, 20268 min lesing
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan's Personal Information Protection Commission (PPC) utstedte 45 håndhevelsesvedtak i 2024 og publiserte Japans første AI-spesifikke personvernguideline. PPCs tekniske vurdering for 2024 fant at 63% av generiske NLP-verktøy som ble brukt til behandling av japanske dokumenter, ikke klarer å nøyaktig oppdage My Number (マイナンバー) — Japans 12-sifrede nasjonale identifikasjonsnummer. For organisasjoner med virksomhet i Japan eller som behandler data om japanske statsborgere, skaper dette gapet direkte APPI-overholdelseseksponering.

My Number: Verhoeff-valideringsutfordringen

Japans individuelle nummersystem (マイナンバー制度, My Number System) tildeler et unikt 12-sifret nummer til hver innbygger i Japan (1,36 milliarder brukere). My Number brukes til:

  • Skatteadministrasjon (selvangivelser, kildeskatt)
  • Sosial sikkerhet (pensjon, helseforsikringsregistrering)
  • Katastrofehåndtering (identifikasjon i nødsituasjoner)

Verhoeff-algoritmen: My Numbers kontrollsiffer bruker Verhoeff-algoritmen — en gruppe-teoretisk feildeteksjonsalgoritme som kan oppdage alle en-sifrede feil og alle tilstøtende transponeringsfeil. Algoritmen bruker tre oppslagstabeller: en dihedral gruppe multiplikasjonstabell (D5), en invers tabell, og en permutasjonstabell.

Verhoeff-implementeringen krever vedlikehold av disse tre tabellene og anvendelse av en sekvens av oppslag. I motsetning til Luhn-algoritmen (enkel modulær aritmetikk), kan Verhoeff ikke beregnes mentalt — det krever en programmatisk implementering.

Hvorfor dette er viktig for PII-detektering:

  • My Numbers 12-sifrede format samsvarer med mange japanske dokumentreferansenummer
  • Uten Verhoeff-validering genererer verktøy massive falske positive fra fakturanumre, dokumentreferansekoder, og dato-tid sekvenser
  • Verktøy som kun implementerer grunnleggende modulære kontrollsiffer (modulo 10 eller 11) kan ikke validere My Number og vil gå glipp av numre som krever Verhoeff for å verifisere

PPCs vurdering for 2024 fant at 63% av de distribuerte verktøyene enten mønsterkjenner uten validering eller implementerer enklere modulære sjekker — som genererer falske positive og falske negative samtidig.

Japansk skript: Tre-system utfordringen

Japansk tekst bruker tre skriftsystemer samtidig:

Hiragana (ひらがな): Fonetisk stavelsessystem brukt for grammatiske partikler, verbbøyningsendelser, og innfødte japanske ord. 46 grunnleggende tegn.

Katakana (カタカナ): Fonetisk stavelsessystem brukt for fremmede ord, tekniske termer, og vektlegging. 46 grunnleggende tegn. Utenlandske navn på japansk skrives vanligvis i Katakana.

Kanji (漢字): Logografiske tegn avledet fra kinesisk, brukt for substantiv, verbstammer, og navn. Japansk bruker omtrent 2.000 vanlige Kanji.

Japansk navn-koding: Et enkelt japansk navn kan vises i:

  • Kanji-form: 田中太郎
  • Hiragana (fonetisk guide, furigana): たなかたろう
  • Katakana (som utenlandsk innhold): タナカ タロウ
  • Romaji (latinsk skrift): Tanaka Taro eller TANAKA Taro (for internasjonale dokumenter)

Et PII-verktøy må gjenkjenne alle fire former av det samme navnet — eller risikere å gå glipp av flertallet av navneforekomster i japanske dokumenter.

Japanske nasjonale identifikatorer utover My Number

Førerkortnummer (運転免許証番号): 12 sifre som begynner med en 2-sifret prefekturkode (10 for Tokyo, 62 for Osaka, osv.). Prefekturkoder muliggjør geografisk validering av førerkortnummeret.

Japansk pass (旅券番号): Standard ICAO-format — 2 bokstaver etterfulgt av 7 sifre. Japan-spesifikke bokstavkombinasjoner følger utstedelseskonvensjoner.

Helseforsikringssertifikatnummer (健康保険証記号番号): Forsikringssymbol + nummerformat varierer etter forsikringsselskap (Japan har flere helseforsikringsordninger for ulike ansettelseskategorier). Vanlig forsikring (国民健康保険) skiller seg fra samfunnsforvaltet forsikring (協会けんぽ).

Oppholdskortnummer (在留カード番号): For utenlandske innbyggere — format 2 bokstaver + 8 sifre + 2 bokstaver, utstedt av Justisdepartementet.

APPIs anonymiserte informasjonsstandard

Japans APPI skaper en strengere anonymiseringsstandard enn GDPR på en spesifikk måte: "anonymisert informasjon" (匿名加工情報) standarden krever at anonymisering skal være tredjeparts verifiserbar og teknisk irreversibel. Organisasjoner som lager anonymiserte datasett må:

  1. Slette eller erstatte alle direkte identifikatorer (inkludert My Number)
  2. Adresse alle kvasi-identifikator kombinasjoner
  3. Anvende k-anonymitet eller tilsvarende teknikk
  4. Publisere tiltakene som er tatt (generell beskrivelse, uten å avsløre spesifikke implementeringsdetaljer)
  5. Ikke forsøke å re-identifisere de anonymiserte dataene

PPCs AI-guideline for 2024 legger til: organisasjoner som bruker anonymiserte datasett for AI-trening kan ikke bruke den resulterende AI-modellen til å forsøke re-identifisering av individer fra treningsdataene — et eksplisitt forbud mot modell-inversjonsangrep mot APPI-anonymiserte treningssett.

For APPI-kompatibel behandling: My Number med Verhoeff-validering, japansk språk NER ved bruk av spaCy ja_core_news med japansk tokenisering, multi-skriftsnavn gjenkjenning på tvers av Kanji/Kana/Romaji former, og validering av førerkortprefekturkode er den tekniske basen for PPC-overholdelse.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.