Japan My Number: APPI en de Verhoeff-controle

Japans Personal Information Protection Commission (PPC) heeft in 2024 45 handhavingsbesluiten uitgevaardigd. Tevens publiceerde de PPC Japan's eerste AI-privacyrichtlijn. Uit een PPC-onderzoek bleek dat 63% van de generieke NLP-tools My Number (マイナンバー) niet detecteert in Japanse bestanden. Als uw team gegevens verwerkt van Japanse inwoners, levert deze lacune direct APPI-risico op.

Wat My Number is

Japan kent elke inwoner een unieke 12-cijferige identifier toe. Dit is My Number, onderdeel van het Individual Number System (マイナンバー制度). Het omvat belastingen, pensioenen, zorgverzekeringen en rampenrespons. Deze identifier is gevoelige informatie onder de APPI. Voor het verzamelen of delen ervan is een wettelijke grondslag vereist.

Het Verhoeff-controleprobleem

My Number gebruikt het Verhoeff-algoritme voor het controlecijfer. Verhoeff is een wiskundige methode die alle enkelvoudige cijferfouten detecteert. Het detecteert ook alle fouten waarbij twee aangrenzende cijfers worden omgewisseld. Voor de berekening zijn drie opzoektabellen nodig. Het is niet met de hand te berekenen; het vereist code.

Dit is om twee redenen van belang. Ten eerste lijkt het Japanse 12-cijferige formaat op veel andere codes. Factuurverwijzingen, document-ID's en datumstrings hebben allemaal hetzelfde formaat. Zonder een Verhoeff-controle markeert een tool onjuiste waarden. Ten tweede gebruiken de meeste tools geen Verhoeff. Ze gebruiken eenvoudigere modulo-10- of modulo-11-controles. Die werken hier niet.

Uit het PPC-onderzoek bleek dat 63% van de tools de controle overslaat of een eenvoudigere methode gebruikt. Beide problemen doen zich tegelijkertijd voor: valse positieven en gemiste detecties.

Het Luhn-algoritme, gebruikt voor creditcards, is eenvoudiger. My Number gebruikt geen Luhn. Tools die zijn gebouwd voor Luhn werken hier niet.

Drie schriften, één naam

Japanse tekst gebruikt drie schrijfsystemen tegelijk. Een tool moet alle drie aankunnen.

Hiragana (ひらがな): Gebruikt voor grammatica en inheemse woorden. 46 basistekens.

Katakana (カタカナ): Gebruikt voor buitenlandse woorden en namen. 46 basistekens. Buitenlandse namen in Japan worden in dit schrift geschreven.

Kanji (漢字): Symbolen voor zelfstandige naamwoorden en namen. Ongeveer 2.000 zijn in algemeen gebruik.

De naam van één persoon kan in vier vormen voorkomen: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカタロウ) en Romaji (Tanaka Taro). Een tool moet alle vier herkennen. Als één vorm wordt gemist, worden de meeste records van die persoon gemist.

Andere Japanse identifiers om te detecteren

Rijbewijs (運転免許証番号): 12 cijfers. De eerste twee cijfers geven de prefectuur aan. Tokyo is 10. Osaka is 62. Hierdoor kan een tool controleren of de waarde geldig is voor die regio.

Paspoort (旅券番号): Twee letters plus zeven cijfers. ICAO-formaat. Japan gebruikt specifieke lettercombinaties.

Zorgverzekeringskaart (健康保険証記号番号): Een symbool plus een nummer. Het formaat is afhankelijk van de verzekeraar. De Nationale Zorgverzekering (国民健康保険) en de Maatschappijbeheerde Verzekering (協会けんぽ) gebruiken verschillende formaten.

Verblijfskaart (在留カード番号): Voor buitenlandse inwoners. Twee letters, acht cijfers, twee letters. Het Ministerie van Justitie geeft deze kaart uit.

APPI's anonimiseringsregel

De APPI heeft een strikte standaard voor geanonimiseerde gegevens, de zogenoemde geanonimiseerde informatie (匿名加工情報). Op één cruciaal punt gaat dit verder dan de GDPR. Anonimisering moet door derden verifieerbaar en technisch onomkeerbaar zijn.

Om hieraan te voldoen moet een organisatie:

Alle directe identifiers verwijderen, inclusief My Number.
Alle quasi-identifier-combinaties afhandelen.
k-anonimiteit of een vergelijkbare methode toepassen.
Een algemene beschrijving van de genomen stappen publiceren.
Nooit proberen de gegevens te re-identificeren.

De PPC-richtlijn voor AI uit 2024 voegt een specifieke regel toe. Als u een AI traint op geanonimiseerde gegevens, mag u dat model niet gebruiken om personen te re-identificeren. Dit is een directe ban op modelinversie-aanvallen op APPI-trainingssets.

Om aan PPC-normen te voldoen zijn vier zaken nodig. Ten eerste Verhoeff-validatie voor My Number-detectie. Ten tweede Japanse NER met behulp van ja_core_news en correcte tokenisatie. Ten derde naamkoppeling over Kanji, Kana en Romaji heen. Ten vierde prefectuurcodecontroles voor rijbewijzen.

India gebruikt Aadhaar, waarvoor ook Verhoeff-validatie vereist is. De technische nalevingsgids voor India DPDPA behandelt dat uitgebreid. Voor meerlandenidentifier-detectie, zie EU nationale belasting-ID-detectie onder de GDPR.

Bronnen

Gerelateerde Artikelen

GDPR & Naleving

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

Start Gratis Proefperiode Bekijk Kenmerken

Japan My Number: Verhoeff & APPI

Japan My Number: APPI en de Verhoeff-controle

Wat My Number is

Het Verhoeff-controleprobleem

Drie schriften, één naam

Andere Japanse identifiers om te detecteren

APPI's anonimiseringsregel

Bronnen

Gerelateerde Artikelen

Zelf-gehoste PII faalt compliance-audits

Presidio mist 220+ GDPR-entiteiten

Configuratiedrift: een verborgen GDPR-risico

Klaar om uw gegevens te beschermen?

Japan My Number: Verhoeff & APPI

Japan My Number: APPI en de Verhoeff-controle

Wat My Number is

Het Verhoeff-controleprobleem

Drie schriften, één naam

Andere Japanse identifiers om te detecteren

APPI's anonimiseringsregel

Bronnen

Gerelateerde Artikelen

Zelf-gehoste PII faalt compliance-audits

Presidio mist 220+ GDPR-entiteiten

Configuratiedrift: een verborgen GDPR-risico

Klaar om uw gegevens te beschermen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow