Japans My Number: APPI och Verhoeff-kontrollen

Japans dataskyddsmyndighet PPC (Personal Information Protection Commission) utfärdade 45 tillsynsbeslut under 2024. Den publicerade även Japans första vägledning om AI och integritet. En PPC-studie visade att 63 % av generiska NLP-verktyg misslyckas med att detektera My Number (マイナンバー) i japanska filer. Om ditt team hanterar data om japanska invånare innebär den luckan en direkt APPI-risk.

Vad My Number är

Japan tilldelar varje invånare en unik 12-siffrig identifierare. Det är My Number, som ingår i det individuella nummersystemet (マイナンバー制度). Det täcker skatt, pension, sjukförsäkring och katastrofinsatser. Denna identifierare är känslig data under APPI. Du behöver ett lagstadgat skäl för att samla in eller dela den.

Problemet med Verhoeff-kontrollen

My Number använder Verhoeff-algoritmen för sin kontrollsiffra. Verhoeff är en matematisk metod som fångar alla enkelsiffer-fel. Den fångar även alla fel där två angränsande siffror byter plats. Den kräver tre uppslagstabeller för att fungera. Du kan inte beräkna den för hand. Den kräver kod.

Detta är viktigt av två skäl. Först: Japans 12-siffersformat liknar många andra koder. Fakturareferenser, dokument-ID och datumsträngar delar samma format. Utan en Verhoeff-kontroll flaggar ett verktyg felaktiga värden. Andra: de flesta verktyg använder inte Verhoeff. De använder enklare modulo-10- eller modulo-11-kontroller. De fungerar inte här.

PPC-studien visade att 63 % av verktygen antingen hoppar över kontrollen eller använder en enklare metod. Båda problemen uppstår samtidigt: falska positiver och falska negativa.

Luhn-algoritmen, som används för kreditkort, är enklare. My Number använder inte Luhn. Verktyg byggda för Luhn fungerar inte här.

Tre skriftsystem, ett namn

Japansk text använder tre skriftsystem samtidigt. Ett verktyg måste hantera alla tre.

Hiragana (ひらがな): Används för grammatik och inhemska ord. 46 grundtecken.

Katakana (カタカナ): Används för utländska ord och namn. 46 grundtecken. Utländska namn i Japan skrivs i detta skriftsystem.

Kanji (漢字): Symboler för substantiv och namn. Ungefär 2 000 är i allmänt bruk.

En persons namn kan förekomma i fyra former: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカタロウ) och Romaji (Tanaka Taro). Ett verktyg måste matcha alla fyra. Missar det en, missar det merparten av den personens poster.

Andra japanska ID:n att detektera

Körkort (運転免許証番号): 12 siffror. De första två siffrorna anger prefektur. Tokyo är 10. Osaka är 62. Det gör att ett verktyg kan kontrollera om värdet är giltigt för den regionen.

Pass (旅券番号): Två bokstäver plus sju siffror. ICAO-format. Japan använder specifika bokstavspar.

Sjukförsäkringskort (健康保険証記号番号): En symbol plus ett nummer. Formatet beror på försäkringsgivaren. National Health Insurance (国民健康保険) och Society-Managed Insurance (協会けんぽ) använder olika format.

Uppehållskort (在留カード番号): För utländska invånare. Två bokstäver, åtta siffror, två bokstäver. Justitieministeriet utfärdar detta kort.

APPI:s anonymiseringsregel

APPI har en strikt standard för anonymiserade uppgifter kallad anonymiserad information (匿名加工情報). Den går längre än GDPR på en central punkt. Anonymisering måste vara tredjepartsverifierbar och tekniskt irreversibel.

För att uppfylla kraven måste en organisation:

Ta bort alla direkta identifierare, inklusive My Number.
Hantera alla kombinationer av kvasiidentifierare.
Använda k-anonymitet eller liknande metod.
Publicera en allmän beskrivning av de vidtagna åtgärderna.
Aldrig försöka återidentifiera data.

PPC:s AI-vägledning från 2024 tillfogar en specifik regel. Om du tränar en AI på anonymiserade data, kan du inte använda den modellen för att återidentifiera personer. Det är ett direkt förbud mot modellinversionsattacker mot APPI-träningsdata.

För att uppfylla PPC:s standarder behöver du fyra saker. Först, Verhoeff-validering för My Number-detektering. Andra, japansk NER med ja_core_news och korrekt tokenisering. Tredje, namnmatchning över Kanji, Kana och Romaji. Fjärde, prefekterkodkontroller för körkort.

Indien använder Aadhaar, som också kräver Verhoeff-validering. Den tekniska efterlevnadsguiden för Indien DPDPA täcker det i detalj. För detektering av identifierare i flera länder, se EU:s nationella skatte-ID-detektering under GDPR.

Källor

Relaterade Artiklar

GDPR & Efterlevnad

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

Börja Gratis Provperiod Visa Funktioner

Japans My Number: Verhoeff & APPI

Japans My Number: APPI och Verhoeff-kontrollen

Vad My Number är

Problemet med Verhoeff-kontrollen

Tre skriftsystem, ett namn

Andra japanska ID:n att detektera

APPI:s anonymiseringsregel

Källor

Relaterade Artiklar

Självdrift av PII misslyckas med efterlevnadsrevisioner

Presidio missar 220+ GDPR-entiteter

Konfigurationsdrift: En dold GDPR-risk

Redo att skydda din data?

Japans My Number: Verhoeff & APPI

Japans My Number: APPI och Verhoeff-kontrollen

Vad My Number är

Problemet med Verhoeff-kontrollen

Tre skriftsystem, ett namn

Andra japanska ID:n att detektera

APPI:s anonymiseringsregel

Källor

Relaterade Artiklar

Självdrift av PII misslyckas med efterlevnadsrevisioner

Presidio missar 220+ GDPR-entiteter

Konfigurationsdrift: En dold GDPR-risk

Redo att skydda din data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow