Japans Personal Information Protection Commission (PPC) udstedte 45 håndhævelsesafgørelser i 2024 og offentliggjorde Japans første AI-specifikke privatlivsvejledning. PPC's tekniske vurdering fra 2024 viste, at 63 % af generiske NLP-værktøjer, der er sat i drift til japansk dokumentbehandling, ikke kan detektere My Number (マイナンバー) nøjagtigt — Japans 12-cifrede nationale identifikationsnummer. For organisationer med aktiviteter i Japan eller behandling af japanske statsborgeres data skaber dette direkte APPI-compliance-eksponering.
My Number: Verhoeff-valideringens udfordring
Japans individuelle nummersystem (マイナンバー制度, My Number System) tildeler et unikt 12-cifret nummer til alle beboere i Japan. My Number bruges til:
- Skatteforvaltning (selvangivelser, kildeskatteoplysninger)
- Social sikring (pension, tilmelding til sygeforsikring)
- Katastrofeberedskab (identifikation i nødsituationer)
Verhoeff-algoritmen: My Numbers kontrolciffer bruger Verhoeff-algoritmen — en gruppeteoretisk fejldetektionsalgoritme, der kan opdage alle enkeltcifrede fejl og alle tilstødende transpositionsfejl. Algoritmen bruger tre opslagstabeller: en dihedrisk gruppemultiplikationstabel (D5), en invertstabel og en permutationstabel.
Verhoeff-implementeringen kræver, at disse tre tabeller vedligeholdes og en sekvens af opslag anvendes. I modsætning til Luhn-algoritmen (simpel modulær aritmetik) kan Verhoeff ikke beregnes mentalt — det kræver en programmatisk implementering.
Hvorfor dette har betydning for PII-detektion:
- My Numbers 12-cifrede format matcher mange japanske dokumentreferencenumre
- Uden Verhoeff-validering genererer værktøjer massive falske positiver fra fakturanumre, dokumentreferencekoder og dato-tidssekvenser
- Værktøjer, der kun implementerer simple modulærkontrolcifre (modulo 10 eller 11), kan ikke validere My Number og vil misse numre, der kræver Verhoeff til verifikation
PPC's vurdering fra 2024 viste, at 63 % af de udployede værktøjer enten mønstermatching uden validering eller implementerer simplere modulærkontroller — og derved genererer falske positiver og falske negativer samtidigt.
Japansk skrift: Tresystemets udfordring
Japansk tekst bruger tre skriftsystemer på én gang:
Hiragana (ひらがな): Fonetisk stavelsesalfabet brugt til grammatiske partikler, verbalbøjningsendelser og native japanske ord. 46 grundtegn.
Katakana (カタカナ): Fonetisk stavelsesalfabet brugt til fremmedord, tekniske termer og fremhævning. 46 grundtegn. Udenlandske navne på japansk skrives typisk med Katakana.
Kanji (漢字): Logografiske tegn afledt af kinesisk, brugt til substantiver, verbstammer og navne. Japansk bruger ca. 2.000 almindelige Kanji.
Japansk navnekodning: En enkelt japansk persons navn kan optræde i:
- Kanji-form: 田中太郎
- Hiragana (fonetisk vejledning, furigana): たなかたろう
- Katakana (som fremmedsprogligt indhold): タナカ タロウ
- Romaji (latinsk skrift): Tanaka Taro eller TANAKA Taro (til internationale dokumenter)
Et PII-værktøj skal genkende alle fire former for det samme navn — ellers risikerer det at misse de fleste navneforekomster i japanske dokumenter.
Japanske nationale identifikatorer ud over My Number
Kørekortnummer (運転免許証番号): 12 cifre begyndende med en 2-cifret præfekturkode (10 for Tokyo, 62 for Osaka osv.). Præfekturkoder muliggør geografisk validering af kørekortnummeret.
Japansk pas (旅券番号): Standard ICAO-format — 2 bogstaver efterfulgt af 7 cifre. Japan-specifikke bogstavkombinationer følger udstedelseskonventioner.
Sygesikringskort-nummer (健康保険証記号番号): Forsikringssymbol + nummerformat varierer efter forsikringsgiver (Japan har flere sygesikringsordninger for forskellige beskæftigelseskategorier). Folkeforsikring (国民健康保険) adskiller sig fra foreningsstyret forsikring (協会けんぽ).
Opholdskort-nummer (在留カード番号): For udenlandske beboere — format 2 bogstaver + 8 cifre + 2 bogstaver, udstedt af Justitsministeriet.
APPI's standard for anonymiserede oplysninger
Japans APPI skaber en strengere anonymiseringsstandard end GDPR på ét specifikt punkt: standarden for "anonymiserede oplysninger" (匿名加工情報) kræver, at anonymisering er tredjepartsverificerbar og teknisk irreversibel. Organisationer, der opretter anonymiserede datasæt, skal:
- Slette eller erstatte alle direkte identifikatorer (herunder My Number)
- Adressere alle kombinationer af kvasiidentifikatorer
- Anvende k-anonymitet eller tilsvarende teknik
- Offentliggøre de anvendte foranstaltninger (generel beskrivelse, uden at afsløre specifikke implementeringsdetaljer)
- Ikke forsøge at re-identificere de anonymiserede data
PPC's AI-vejledning fra 2024 tilføjer: organisationer, der bruger anonymiserede datasæt til AI-træning, må ikke bruge den resulterende AI-model til at forsøge re-identifikation af enkeltpersoner fra træningsdataene — et eksplicit forbud mod modelinversionsangreb på APPI-anonymiserede træningssæt.
For APPI-compliant behandling er den tekniske grundlinje for PPC-compliance: My Number med Verhoeff-validering, japansksproget NER med spaCy ja_core_news og japansk tokenisering, flerskrift navngenkendelse på tværs af Kanji/Kana/Romaji-former samt kørekortnummer-præfekturkodevalidering.
Kilder: