Japans My Number: APPI och Verhoeff-kontrollen
Japans dataskyddsmyndighet PPC (Personal Information Protection Commission) utfärdade 45 tillsynsbeslut under 2024. Den publicerade även Japans första vägledning om AI och integritet. En PPC-studie visade att 63 % av generiska NLP-verktyg misslyckas med att detektera My Number (マイナンバー) i japanska filer. Om ditt team hanterar data om japanska invånare innebär den luckan en direkt APPI-risk.
Vad My Number är
Japan tilldelar varje invånare en unik 12-siffrig identifierare. Det är My Number, som ingår i det individuella nummersystemet (マイナンバー制度). Det täcker skatt, pension, sjukförsäkring och katastrofinsatser. Denna identifierare är känslig data under APPI. Du behöver ett lagstadgat skäl för att samla in eller dela den.
Problemet med Verhoeff-kontrollen
My Number använder Verhoeff-algoritmen för sin kontrollsiffra. Verhoeff är en matematisk metod som fångar alla enkelsiffer-fel. Den fångar även alla fel där två angränsande siffror byter plats. Den kräver tre uppslagstabeller för att fungera. Du kan inte beräkna den för hand. Den kräver kod.
Detta är viktigt av två skäl. Först: Japans 12-siffersformat liknar många andra koder. Fakturareferenser, dokument-ID och datumsträngar delar samma format. Utan en Verhoeff-kontroll flaggar ett verktyg felaktiga värden. Andra: de flesta verktyg använder inte Verhoeff. De använder enklare modulo-10- eller modulo-11-kontroller. De fungerar inte här.
PPC-studien visade att 63 % av verktygen antingen hoppar över kontrollen eller använder en enklare metod. Båda problemen uppstår samtidigt: falska positiver och falska negativa.
Luhn-algoritmen, som används för kreditkort, är enklare. My Number använder inte Luhn. Verktyg byggda för Luhn fungerar inte här.
Tre skriftsystem, ett namn
Japansk text använder tre skriftsystem samtidigt. Ett verktyg måste hantera alla tre.
Hiragana (ひらがな): Används för grammatik och inhemska ord. 46 grundtecken.
Katakana (カタカナ): Används för utländska ord och namn. 46 grundtecken. Utländska namn i Japan skrivs i detta skriftsystem.
Kanji (漢字): Symboler för substantiv och namn. Ungefär 2 000 är i allmänt bruk.
En persons namn kan förekomma i fyra former: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) och Romaji (Tanaka Taro). Ett verktyg måste matcha alla fyra. Missar det en, missar det merparten av den personens poster.
Andra japanska ID:n att detektera
Körkort (運転免許証番号): 12 siffror. De första två siffrorna anger prefektur. Tokyo är 10. Osaka är 62. Det gör att ett verktyg kan kontrollera om värdet är giltigt för den regionen.
Pass (旅券番号): Två bokstäver plus sju siffror. ICAO-format. Japan använder specifika bokstavspar.
Sjukförsäkringskort (健康保険証記号番号): En symbol plus ett nummer. Formatet beror på försäkringsgivaren. National Health Insurance (国民健康保険) och Society-Managed Insurance (協会けんぽ) använder olika format.
Uppehållskort (在留カード番号): För utländska invånare. Två bokstäver, åtta siffror, två bokstäver. Justitieministeriet utfärdar detta kort.
APPI:s anonymiseringsregel
APPI har en strikt standard för anonymiserade uppgifter kallad anonymiserad information (匿名加工情報). Den går längre än GDPR på en central punkt. Anonymisering måste vara tredjepartsverifierbar och tekniskt irreversibel.
För att uppfylla kraven måste en organisation:
- Ta bort alla direkta identifierare, inklusive My Number.
- Hantera alla kombinationer av kvasiidentifierare.
- Använda k-anonymitet eller liknande metod.
- Publicera en allmän beskrivning av de vidtagna åtgärderna.
- Aldrig försöka återidentifiera data.
PPC:s AI-vägledning från 2024 tillfogar en specifik regel. Om du tränar en AI på anonymiserade data, kan du inte använda den modellen för att återidentifiera personer. Det är ett direkt förbud mot modellinversionsattacker mot APPI-träningsdata.
För att uppfylla PPC:s standarder behöver du fyra saker. Först, Verhoeff-validering för My Number-detektering. Andra, japansk NER med ja_core_news och korrekt tokenisering. Tredje, namnmatchning över Kanji, Kana och Romaji. Fjärde, prefekterkodkontroller för körkort.
Indien använder Aadhaar, som också kräver Verhoeff-validering. Den tekniska efterlevnadsguiden för Indien DPDPA täcker det i detalj. För detektering av identifierare i flera länder, se EU:s nationella skatte-ID-detektering under GDPR.