Japan's Personal Information Protection Commission (PPC) utstedte 45 håndhevelsesvedtak i 2024 og publiserte Japans første AI-spesifikke personvernguideline. PPCs tekniske vurdering for 2024 fant at 63% av generiske NLP-verktøy som ble brukt til behandling av japanske dokumenter, ikke klarer å nøyaktig oppdage My Number (マイナンバー) — Japans 12-sifrede nasjonale identifikasjonsnummer. For organisasjoner med virksomhet i Japan eller som behandler data om japanske statsborgere, skaper dette gapet direkte APPI-overholdelseseksponering.
My Number: Verhoeff-valideringsutfordringen
Japans individuelle nummersystem (マイナンバー制度, My Number System) tildeler et unikt 12-sifret nummer til hver innbygger i Japan (1,36 milliarder brukere). My Number brukes til:
- Skatteadministrasjon (selvangivelser, kildeskatt)
- Sosial sikkerhet (pensjon, helseforsikringsregistrering)
- Katastrofehåndtering (identifikasjon i nødsituasjoner)
Verhoeff-algoritmen: My Numbers kontrollsiffer bruker Verhoeff-algoritmen — en gruppe-teoretisk feildeteksjonsalgoritme som kan oppdage alle en-sifrede feil og alle tilstøtende transponeringsfeil. Algoritmen bruker tre oppslagstabeller: en dihedral gruppe multiplikasjonstabell (D5), en invers tabell, og en permutasjonstabell.
Verhoeff-implementeringen krever vedlikehold av disse tre tabellene og anvendelse av en sekvens av oppslag. I motsetning til Luhn-algoritmen (enkel modulær aritmetikk), kan Verhoeff ikke beregnes mentalt — det krever en programmatisk implementering.
Hvorfor dette er viktig for PII-detektering:
- My Numbers 12-sifrede format samsvarer med mange japanske dokumentreferansenummer
- Uten Verhoeff-validering genererer verktøy massive falske positive fra fakturanumre, dokumentreferansekoder, og dato-tid sekvenser
- Verktøy som kun implementerer grunnleggende modulære kontrollsiffer (modulo 10 eller 11) kan ikke validere My Number og vil gå glipp av numre som krever Verhoeff for å verifisere
PPCs vurdering for 2024 fant at 63% av de distribuerte verktøyene enten mønsterkjenner uten validering eller implementerer enklere modulære sjekker — som genererer falske positive og falske negative samtidig.
Japansk skript: Tre-system utfordringen
Japansk tekst bruker tre skriftsystemer samtidig:
Hiragana (ひらがな): Fonetisk stavelsessystem brukt for grammatiske partikler, verbbøyningsendelser, og innfødte japanske ord. 46 grunnleggende tegn.
Katakana (カタカナ): Fonetisk stavelsessystem brukt for fremmede ord, tekniske termer, og vektlegging. 46 grunnleggende tegn. Utenlandske navn på japansk skrives vanligvis i Katakana.
Kanji (漢字): Logografiske tegn avledet fra kinesisk, brukt for substantiv, verbstammer, og navn. Japansk bruker omtrent 2.000 vanlige Kanji.
Japansk navn-koding: Et enkelt japansk navn kan vises i:
- Kanji-form: 田中太郎
- Hiragana (fonetisk guide, furigana): たなかたろう
- Katakana (som utenlandsk innhold): タナカ タロウ
- Romaji (latinsk skrift): Tanaka Taro eller TANAKA Taro (for internasjonale dokumenter)
Et PII-verktøy må gjenkjenne alle fire former av det samme navnet — eller risikere å gå glipp av flertallet av navneforekomster i japanske dokumenter.
Japanske nasjonale identifikatorer utover My Number
Førerkortnummer (運転免許証番号): 12 sifre som begynner med en 2-sifret prefekturkode (10 for Tokyo, 62 for Osaka, osv.). Prefekturkoder muliggjør geografisk validering av førerkortnummeret.
Japansk pass (旅券番号): Standard ICAO-format — 2 bokstaver etterfulgt av 7 sifre. Japan-spesifikke bokstavkombinasjoner følger utstedelseskonvensjoner.
Helseforsikringssertifikatnummer (健康保険証記号番号): Forsikringssymbol + nummerformat varierer etter forsikringsselskap (Japan har flere helseforsikringsordninger for ulike ansettelseskategorier). Vanlig forsikring (国民健康保険) skiller seg fra samfunnsforvaltet forsikring (協会けんぽ).
Oppholdskortnummer (在留カード番号): For utenlandske innbyggere — format 2 bokstaver + 8 sifre + 2 bokstaver, utstedt av Justisdepartementet.
APPIs anonymiserte informasjonsstandard
Japans APPI skaper en strengere anonymiseringsstandard enn GDPR på en spesifikk måte: "anonymisert informasjon" (匿名加工情報) standarden krever at anonymisering skal være tredjeparts verifiserbar og teknisk irreversibel. Organisasjoner som lager anonymiserte datasett må:
- Slette eller erstatte alle direkte identifikatorer (inkludert My Number)
- Adresse alle kvasi-identifikator kombinasjoner
- Anvende k-anonymitet eller tilsvarende teknikk
- Publisere tiltakene som er tatt (generell beskrivelse, uten å avsløre spesifikke implementeringsdetaljer)
- Ikke forsøke å re-identifisere de anonymiserte dataene
PPCs AI-guideline for 2024 legger til: organisasjoner som bruker anonymiserte datasett for AI-trening kan ikke bruke den resulterende AI-modellen til å forsøke re-identifisering av individer fra treningsdataene — et eksplisitt forbud mot modell-inversjonsangrep mot APPI-anonymiserte treningssett.
For APPI-kompatibel behandling: My Number med Verhoeff-validering, japansk språk NER ved bruk av spaCy ja_core_news med japansk tokenisering, multi-skriftsnavn gjenkjenning på tvers av Kanji/Kana/Romaji former, og validering av førerkortprefekturkode er den tekniske basen for PPC-overholdelse.
Kilder: