Tillbaka till BloggenGDPR & Efterlevnad

Japan PPC: My Number Verhoeff-validering och japansk språk PII-detektering för APPI-efterlevnad

63% av generiska verktyg misslyckas med att upptäcka My Number i japanska dokument. My Number använder Verhoeff-algoritmen — den mest komplexa nationella ID-kontrollsumman i Asien. Japansk skript NER kräver dedikerade språkmodeller.

March 7, 20268 min läsning
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japans kommission för skydd av personlig information (PPC) utfärdade 45 verkställighetsbeslut under 2024 och publicerade Japans första AI-specifika sekretessriktlinjer. PPC:s tekniska bedömning för 2024 visade att 63% av generiska NLP-verktyg som används för bearbetning av japanska dokument misslyckas med att korrekt upptäcka My Number (マイナンバー) — Japans 12-siffriga nationella identifikationsnummer. För organisationer med verksamhet i Japan eller som behandlar data om japanska medborgare skapar denna brist direkt exponering för APPI-efterlevnad.

My Number: Utmaningen med Verhoeff-validering

Japans individuella nummersystem (マイナンバー制度, My Number System) tilldelar ett unikt 12-siffrigt nummer till varje invånare i Japan (1,36 miljarder användare). My Number används för:

  • Skatteadministration (skattedeklarationer, avdragserkläringar)
  • Socialförsäkring (pension, registrering av sjukförsäkring)
  • Katastrofåtgärder (identifiering vid nödsituationer)

Verhoeff-algoritm: My Numbers kontrollsiffra använder Verhoeff-algoritmen — en gruppteoretisk felupptäcktsalgoritm som kan upptäcka alla ensiffriga fel och alla intilliggande transpositionsfel. Algoritmen använder tre uppslagstabeller: en dihedral gruppmultiplikationstabell (D5), en invers tabell och en permutations tabell.

Verhoeff-implementeringen kräver att dessa tre tabeller underhålls och att en sekvens av uppslagningar tillämpas. Till skillnad från Luhn-algoritmen (enkel modulär aritmetik) kan Verhoeff inte beräknas mentalt — det kräver en programmatisk implementering.

Varför detta är viktigt för PII-detektering:

  • My Numbers 12-siffriga format matchar många japanska dokumentreferensnummer
  • Utan Verhoeff-validering genererar verktyg massiva falska positiva resultat från fakturanummer, dokumentreferenskoder och datum-tid-sekvenser
  • Verktyg som endast implementerar grundläggande modulära kontrollsiffror (modulo 10 eller 11) kan inte validera My Number och kommer att missa nummer som kräver Verhoeff för att verifiera

PPC:s bedömning för 2024 visade att 63% av de använda verktygen antingen mönstermatchar utan validering eller implementerar enklare modulära kontroller — vilket genererar falska positiva och falska negativa resultat samtidigt.

Japanskt skript: Utmaningen med de tre systemen

Japansk text använder tre skrivsystem samtidigt:

Hiragana (ひらがな): Fonetisk stavelse som används för grammatiska partiklar, verbkonjugationsändelser och inhemska japanska ord. 46 grundtecken.

Katakana (カタカナ): Fonetisk stavelse som används för utländska ord, tekniska termer och betoning. 46 grundtecken. Utländska namn på japanska skrivs vanligtvis i Katakana.

Kanji (漢字): Logografiska tecken härledda från kinesiska, används för substantiv, verbstammar och namn. Japanska använder cirka 2 000 vanliga Kanji.

Japansk namnkodning: Ett enda japanskt namn kan förekomma i:

  • Kanji-form: 田中太郎
  • Hiragana (fonetisk guide, furigana): たなかたろう
  • Katakana (som utländskt innehåll): タナカ タロウ
  • Romaji (latinskt alfabet): Tanaka Taro eller TANAKA Taro (för internationella dokument)

Ett PII-verktyg måste känna igen alla fyra former av samma namn — annars riskerar det att missa majoriteten av namnförekomster i japanska dokument.

Japanska nationella identifierare bortom My Number

Körkortnummer (運転免許証番号): 12 siffror som börjar med en 2-siffrig prefekturkod (10 för Tokyo, 62 för Osaka, etc.). Prefekturkoder möjliggör geografisk validering av körkortnumret.

Japanskt pass (旅券番号): Standard ICAO-format — 2 bokstäver följt av 7 siffror. Japan-specifika bokstavskombinationer följer utfärdandekonventioner.

Hälsovårdsförsäkringscertifikatnummer (健康保険証記号番号): Försäkringssymbol + nummerformat varierar beroende på försäkringsgivare (Japan har flera sjukförsäkringssystem för olika anställningskategorier). Vanlig försäkring (国民健康保険) skiljer sig från samhällsförvaltad försäkring (協会けんぽ).

Uppehållskortnummer (在留カード番号): För utländska invånare — format 2 bokstäver + 8 siffror + 2 bokstäver, utfärdat av justitieministeriet.

APPI:s standard för anonymiserad information

Japans APPI skapar en strängare anonymiseringsstandard än GDPR på ett specifikt sätt: standarden för "anonymiserad information" (匿名加工情報) kräver att anonymisering ska vara tredjepartsverifierbar och tekniskt oåterkallelig. Organisationer som skapar anonymiserade datamängder måste:

  1. Ta bort eller ersätta alla direkta identifierare (inklusive My Number)
  2. Adressera alla kvasi-identifierarkombinationer
  3. Tillämpa k-anonymitet eller motsvarande teknik
  4. Publicera de åtgärder som vidtagits (allmän beskrivning, utan att avslöja specifika implementeringsdetaljer)
  5. Inte försöka återidentifiera de anonymiserade uppgifterna

PPC:s AI-riktlinjer för 2024 tillägger: organisationer som använder anonymiserade datamängder för AI-träning får inte använda den resulterande AI-modellen för att försöka återidentifiera individer från träningsdata — ett uttryckligt förbud mot modellinversionsattacker mot APPI-anonymiserade träningsuppsättningar.

För APPI-kompatibel bearbetning: My Number med Verhoeff-validering, japansk språk NER med spaCy ja_core_news med japansk tokenisering, multi-skripts namnigenkänning över Kanji/Kana/Romaji-former och validering av körkortets prefekturkod är den tekniska baslinjen för PPC-efterlevnad.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.