Tilbage til BlogGDPR & Overholdelse

Japan PPC: My Number Verhoeff Validering og Japansk-Sprog PII Detektion for APPI Overholdelse

63% af generiske værktøjer fejler My Number detektion i japanske dokumenter. My Number bruger Verhoeff-algoritmen — den mest komplekse nationale ID-checksum i Asien. Japansk skriftsystem NER kræver dedikerede sprogmodeller.

March 7, 20268 min læsning
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japans Personlige Oplysningsbeskyttelseskommission (PPC) udstedte 45 håndhævelsesbeslutninger i 2024 og offentliggjorde Japans første AI-specifikke privatlivsguideline. PPC's tekniske vurdering i 2024 fandt, at 63% af generiske NLP-værktøjer, der anvendes til behandling af japanske dokumenter, ikke præcist kan detektere My Number (マイナンバー) — Japans 12-cifrede nationale identifikationsnummer. For organisationer med aktiviteter i Japan eller der behandler data fra japanske statsborgere, skaber denne kløft direkte APPI-overholdelsesrisiko.

My Number: Verhoeff Valideringsudfordringen

Japans Individuelle Nummer System (マイナンバー制度, My Number System) tildeler et unikt 12-cifret nummer til hver indbygger i Japan (1,36 milliarder brugere). My Number bruges til:

  • Skatteadministration (selvangivelser, tilbageholdelseserklæringer)
  • Social sikring (pension, tilmelding til sundhedsforsikring)
  • Katastrofeberedskab (identifikation i nødsituationer)

Verhoeff-algoritmen: My Numbers kontrolciffer bruger Verhoeff-algoritmen — en gruppe-teoretisk fejlregistreringsalgoritme, der kan opdage alle enkeltcifrede fejl og alle tilstødende transpositionsfejl. Algoritmen bruger tre opslagstabeller: en dihedral gruppe multiplikationstabel (D5), en invers tabel og en permutationstabel.

Verhoeff-implementeringen kræver vedligeholdelse af disse tre tabeller og anvendelse af en sekvens af opslag. I modsætning til Luhn-algoritmen (simpel modulær aritmetik) kan Verhoeff ikke beregnes mentalt — det kræver en programmatisk implementering.

Hvorfor dette er vigtigt for PII-detektion:

  • My Numbers 12-cifrede format matcher mange japanske dokumentreferencenumre
  • Uden Verhoeff-validering genererer værktøjer massive falske positiver fra fakturanumre, dokumentreferenskoder og dato-tid sekvenser
  • Værktøjer, der kun implementerer grundlæggende modulære kontrolcifre (modulo 10 eller 11), kan ikke validere My Number og vil misse numre, der kræver Verhoeff til at bekræfte

PPC's vurdering i 2024 fandt, at 63% af de anvendte værktøjer enten matcher mønstre uden validering eller implementerer enklere modulære kontroller — hvilket genererer falske positiver og falske negativer samtidig.

Japansk Skrift: Tre-System Udfordringen

Japansk tekst bruger tre skriftsystemer samtidigt:

Hiragana (ひらがな): Fonetisk stavelsessystem brugt til grammatiske partikler, verberbøjninger og indfødte japanske ord. 46 grundtegn.

Katakana (カタカナ): Fonetisk stavelsessystem brugt til fremmede ord, tekniske termer og vægt. 46 grundtegn. Fremmede navne på japansk skrives typisk i Katakana.

Kanji (漢字): Logografiske tegn afledt fra kinesisk, brugt til substantiver, verbstammer og navne. Japansk bruger cirka 2.000 almindelige Kanji.

Japansk navnekodning: Et enkelt japansk persons navn kan fremtræde i:

  • Kanji form: 田中太郎
  • Hiragana (fonetisk guide, furigana): たなかたろう
  • Katakana (som fremmed indhold): タナカ タロウ
  • Romaji (latinske bogstaver): Tanaka Taro eller TANAKA Taro (til internationale dokumenter)

Et PII-værktøj skal genkende alle fire former for det samme navn — eller risikere at misse størstedelen af navneforekomster i japanske dokumenter.

Japanske Nationale Identifikatorer Udover My Number

Kørekortnummer (運転免許証番号): 12 cifre, der begynder med en 2-cifret præfekturkode (10 for Tokyo, 62 for Osaka, osv.). Præfekturkoder muliggør geografisk validering af kørekortnummeret.

Japansk pas (旅券番号): Standard ICAO format — 2 bogstaver efterfulgt af 7 cifre. Japan-specifikke bogstavkombinationer følger udstedelsesregler.

Sundhedsforsikringscertifikatnummer (健康保険証記号番号): Forsikringssymbol + nummerformat varierer efter forsikringsselskab (Japan har flere sundhedsforsikringsordninger for forskellige beskæftigelseskategorier). Almindelig forsikring (国民健康保険) adskiller sig fra samfundsforvaltet forsikring (協会けんぽ).

Opholdskortnummer (在留カード番号): For udenlandske beboere — format 2 bogstaver + 8 cifre + 2 bogstaver, udstedt af Justitsministeriet.

APPIs Anonymiserede Oplysningsstandard

Japans APPI skaber en strengere anonymiseringsstandard end GDPR på en specifik måde: "anonymiserede oplysninger" (匿名加工情報) standarden kræver, at anonymisering skal være tredjeparts verificerbar og teknisk irreversibel. Organisationer, der skaber anonymiserede datasæt, skal:

  1. Slette eller erstatte alle direkte identifikatorer (inklusive My Number)
  2. Adressere alle quasi-identifikator kombinationer
  3. Anvende k-anonymitet eller tilsvarende teknik
  4. Offentliggøre de trufne foranstaltninger (generel beskrivelse, uden at afsløre specifikke implementeringsdetaljer)
  5. Ikke forsøge at re-identificere de anonymiserede data

PPC's AI-guideline fra 2024 tilføjer: organisationer, der bruger anonymiserede datasæt til AI-træning, må ikke bruge den resulterende AI-model til at forsøge at re-identificere individer fra træningsdataene — en eksplicit forbud mod modelinversionsangreb mod APPI-anonymiserede træningssæt.

For APPI-kompatibel behandling: My Number med Verhoeff-validering, japansk-sprog NER ved hjælp af spaCy ja_core_news med japansk tokenisering, multi-skrifts navngenkendelse på tværs af Kanji/Kana/Romaji former, og kørekort præfekturkode validering er den tekniske basislinje for PPC-overholdelse.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.