Japans kommission för skydd av personlig information (PPC) utfärdade 45 verkställighetsbeslut under 2024 och publicerade Japans första AI-specifika sekretessriktlinjer. PPC:s tekniska bedömning för 2024 visade att 63% av generiska NLP-verktyg som används för bearbetning av japanska dokument misslyckas med att korrekt upptäcka My Number (マイナンバー) — Japans 12-siffriga nationella identifikationsnummer. För organisationer med verksamhet i Japan eller som behandlar data om japanska medborgare skapar denna brist direkt exponering för APPI-efterlevnad.
My Number: Utmaningen med Verhoeff-validering
Japans individuella nummersystem (マイナンバー制度, My Number System) tilldelar ett unikt 12-siffrigt nummer till varje invånare i Japan (1,36 miljarder användare). My Number används för:
- Skatteadministration (skattedeklarationer, avdragserkläringar)
- Socialförsäkring (pension, registrering av sjukförsäkring)
- Katastrofåtgärder (identifiering vid nödsituationer)
Verhoeff-algoritm: My Numbers kontrollsiffra använder Verhoeff-algoritmen — en gruppteoretisk felupptäcktsalgoritm som kan upptäcka alla ensiffriga fel och alla intilliggande transpositionsfel. Algoritmen använder tre uppslagstabeller: en dihedral gruppmultiplikationstabell (D5), en invers tabell och en permutations tabell.
Verhoeff-implementeringen kräver att dessa tre tabeller underhålls och att en sekvens av uppslagningar tillämpas. Till skillnad från Luhn-algoritmen (enkel modulär aritmetik) kan Verhoeff inte beräknas mentalt — det kräver en programmatisk implementering.
Varför detta är viktigt för PII-detektering:
- My Numbers 12-siffriga format matchar många japanska dokumentreferensnummer
- Utan Verhoeff-validering genererar verktyg massiva falska positiva resultat från fakturanummer, dokumentreferenskoder och datum-tid-sekvenser
- Verktyg som endast implementerar grundläggande modulära kontrollsiffror (modulo 10 eller 11) kan inte validera My Number och kommer att missa nummer som kräver Verhoeff för att verifiera
PPC:s bedömning för 2024 visade att 63% av de använda verktygen antingen mönstermatchar utan validering eller implementerar enklare modulära kontroller — vilket genererar falska positiva och falska negativa resultat samtidigt.
Japanskt skript: Utmaningen med de tre systemen
Japansk text använder tre skrivsystem samtidigt:
Hiragana (ひらがな): Fonetisk stavelse som används för grammatiska partiklar, verbkonjugationsändelser och inhemska japanska ord. 46 grundtecken.
Katakana (カタカナ): Fonetisk stavelse som används för utländska ord, tekniska termer och betoning. 46 grundtecken. Utländska namn på japanska skrivs vanligtvis i Katakana.
Kanji (漢字): Logografiska tecken härledda från kinesiska, används för substantiv, verbstammar och namn. Japanska använder cirka 2 000 vanliga Kanji.
Japansk namnkodning: Ett enda japanskt namn kan förekomma i:
- Kanji-form: 田中太郎
- Hiragana (fonetisk guide, furigana): たなかたろう
- Katakana (som utländskt innehåll): タナカ タロウ
- Romaji (latinskt alfabet): Tanaka Taro eller TANAKA Taro (för internationella dokument)
Ett PII-verktyg måste känna igen alla fyra former av samma namn — annars riskerar det att missa majoriteten av namnförekomster i japanska dokument.
Japanska nationella identifierare bortom My Number
Körkortnummer (運転免許証番号): 12 siffror som börjar med en 2-siffrig prefekturkod (10 för Tokyo, 62 för Osaka, etc.). Prefekturkoder möjliggör geografisk validering av körkortnumret.
Japanskt pass (旅券番号): Standard ICAO-format — 2 bokstäver följt av 7 siffror. Japan-specifika bokstavskombinationer följer utfärdandekonventioner.
Hälsovårdsförsäkringscertifikatnummer (健康保険証記号番号): Försäkringssymbol + nummerformat varierar beroende på försäkringsgivare (Japan har flera sjukförsäkringssystem för olika anställningskategorier). Vanlig försäkring (国民健康保険) skiljer sig från samhällsförvaltad försäkring (協会けんぽ).
Uppehållskortnummer (在留カード番号): För utländska invånare — format 2 bokstäver + 8 siffror + 2 bokstäver, utfärdat av justitieministeriet.
APPI:s standard för anonymiserad information
Japans APPI skapar en strängare anonymiseringsstandard än GDPR på ett specifikt sätt: standarden för "anonymiserad information" (匿名加工情報) kräver att anonymisering ska vara tredjepartsverifierbar och tekniskt oåterkallelig. Organisationer som skapar anonymiserade datamängder måste:
- Ta bort eller ersätta alla direkta identifierare (inklusive My Number)
- Adressera alla kvasi-identifierarkombinationer
- Tillämpa k-anonymitet eller motsvarande teknik
- Publicera de åtgärder som vidtagits (allmän beskrivning, utan att avslöja specifika implementeringsdetaljer)
- Inte försöka återidentifiera de anonymiserade uppgifterna
PPC:s AI-riktlinjer för 2024 tillägger: organisationer som använder anonymiserade datamängder för AI-träning får inte använda den resulterande AI-modellen för att försöka återidentifiera individer från träningsdata — ett uttryckligt förbud mot modellinversionsattacker mot APPI-anonymiserade träningsuppsättningar.
För APPI-kompatibel bearbetning: My Number med Verhoeff-validering, japansk språk NER med spaCy ja_core_news med japansk tokenisering, multi-skripts namnigenkänning över Kanji/Kana/Romaji-former och validering av körkortets prefekturkod är den tekniska baslinjen för PPC-efterlevnad.
Källor: