Japans Personlige Oplysningsbeskyttelseskommission (PPC) udstedte 45 håndhævelsesbeslutninger i 2024 og offentliggjorde Japans første AI-specifikke privatlivsguideline. PPC's tekniske vurdering i 2024 fandt, at 63% af generiske NLP-værktøjer, der anvendes til behandling af japanske dokumenter, ikke præcist kan detektere My Number (マイナンバー) — Japans 12-cifrede nationale identifikationsnummer. For organisationer med aktiviteter i Japan eller der behandler data fra japanske statsborgere, skaber denne kløft direkte APPI-overholdelsesrisiko.
My Number: Verhoeff Valideringsudfordringen
Japans Individuelle Nummer System (マイナンバー制度, My Number System) tildeler et unikt 12-cifret nummer til hver indbygger i Japan (1,36 milliarder brugere). My Number bruges til:
- Skatteadministration (selvangivelser, tilbageholdelseserklæringer)
- Social sikring (pension, tilmelding til sundhedsforsikring)
- Katastrofeberedskab (identifikation i nødsituationer)
Verhoeff-algoritmen: My Numbers kontrolciffer bruger Verhoeff-algoritmen — en gruppe-teoretisk fejlregistreringsalgoritme, der kan opdage alle enkeltcifrede fejl og alle tilstødende transpositionsfejl. Algoritmen bruger tre opslagstabeller: en dihedral gruppe multiplikationstabel (D5), en invers tabel og en permutationstabel.
Verhoeff-implementeringen kræver vedligeholdelse af disse tre tabeller og anvendelse af en sekvens af opslag. I modsætning til Luhn-algoritmen (simpel modulær aritmetik) kan Verhoeff ikke beregnes mentalt — det kræver en programmatisk implementering.
Hvorfor dette er vigtigt for PII-detektion:
- My Numbers 12-cifrede format matcher mange japanske dokumentreferencenumre
- Uden Verhoeff-validering genererer værktøjer massive falske positiver fra fakturanumre, dokumentreferenskoder og dato-tid sekvenser
- Værktøjer, der kun implementerer grundlæggende modulære kontrolcifre (modulo 10 eller 11), kan ikke validere My Number og vil misse numre, der kræver Verhoeff til at bekræfte
PPC's vurdering i 2024 fandt, at 63% af de anvendte værktøjer enten matcher mønstre uden validering eller implementerer enklere modulære kontroller — hvilket genererer falske positiver og falske negativer samtidig.
Japansk Skrift: Tre-System Udfordringen
Japansk tekst bruger tre skriftsystemer samtidigt:
Hiragana (ひらがな): Fonetisk stavelsessystem brugt til grammatiske partikler, verberbøjninger og indfødte japanske ord. 46 grundtegn.
Katakana (カタカナ): Fonetisk stavelsessystem brugt til fremmede ord, tekniske termer og vægt. 46 grundtegn. Fremmede navne på japansk skrives typisk i Katakana.
Kanji (漢字): Logografiske tegn afledt fra kinesisk, brugt til substantiver, verbstammer og navne. Japansk bruger cirka 2.000 almindelige Kanji.
Japansk navnekodning: Et enkelt japansk persons navn kan fremtræde i:
- Kanji form: 田中太郎
- Hiragana (fonetisk guide, furigana): たなかたろう
- Katakana (som fremmed indhold): タナカ タロウ
- Romaji (latinske bogstaver): Tanaka Taro eller TANAKA Taro (til internationale dokumenter)
Et PII-værktøj skal genkende alle fire former for det samme navn — eller risikere at misse størstedelen af navneforekomster i japanske dokumenter.
Japanske Nationale Identifikatorer Udover My Number
Kørekortnummer (運転免許証番号): 12 cifre, der begynder med en 2-cifret præfekturkode (10 for Tokyo, 62 for Osaka, osv.). Præfekturkoder muliggør geografisk validering af kørekortnummeret.
Japansk pas (旅券番号): Standard ICAO format — 2 bogstaver efterfulgt af 7 cifre. Japan-specifikke bogstavkombinationer følger udstedelsesregler.
Sundhedsforsikringscertifikatnummer (健康保険証記号番号): Forsikringssymbol + nummerformat varierer efter forsikringsselskab (Japan har flere sundhedsforsikringsordninger for forskellige beskæftigelseskategorier). Almindelig forsikring (国民健康保険) adskiller sig fra samfundsforvaltet forsikring (協会けんぽ).
Opholdskortnummer (在留カード番号): For udenlandske beboere — format 2 bogstaver + 8 cifre + 2 bogstaver, udstedt af Justitsministeriet.
APPIs Anonymiserede Oplysningsstandard
Japans APPI skaber en strengere anonymiseringsstandard end GDPR på en specifik måde: "anonymiserede oplysninger" (匿名加工情報) standarden kræver, at anonymisering skal være tredjeparts verificerbar og teknisk irreversibel. Organisationer, der skaber anonymiserede datasæt, skal:
- Slette eller erstatte alle direkte identifikatorer (inklusive My Number)
- Adressere alle quasi-identifikator kombinationer
- Anvende k-anonymitet eller tilsvarende teknik
- Offentliggøre de trufne foranstaltninger (generel beskrivelse, uden at afsløre specifikke implementeringsdetaljer)
- Ikke forsøge at re-identificere de anonymiserede data
PPC's AI-guideline fra 2024 tilføjer: organisationer, der bruger anonymiserede datasæt til AI-træning, må ikke bruge den resulterende AI-model til at forsøge at re-identificere individer fra træningsdataene — en eksplicit forbud mod modelinversionsangreb mod APPI-anonymiserede træningssæt.
For APPI-kompatibel behandling: My Number med Verhoeff-validering, japansk-sprog NER ved hjælp af spaCy ja_core_news med japansk tokenisering, multi-skrifts navngenkendelse på tværs af Kanji/Kana/Romaji former, og kørekort præfekturkode validering er den tekniske basislinje for PPC-overholdelse.
Kilder: