Japan My Number: APPI en de Verhoeff-controle
Japans Personal Information Protection Commission (PPC) heeft in 2024 45 handhavingsbesluiten uitgevaardigd. Tevens publiceerde de PPC Japan's eerste AI-privacyrichtlijn. Uit een PPC-onderzoek bleek dat 63% van de generieke NLP-tools My Number (マイナンバー) niet detecteert in Japanse bestanden. Als uw team gegevens verwerkt van Japanse inwoners, levert deze lacune direct APPI-risico op.
Wat My Number is
Japan kent elke inwoner een unieke 12-cijferige identifier toe. Dit is My Number, onderdeel van het Individual Number System (マイナンバー制度). Het omvat belastingen, pensioenen, zorgverzekeringen en rampenrespons. Deze identifier is gevoelige informatie onder de APPI. Voor het verzamelen of delen ervan is een wettelijke grondslag vereist.
Het Verhoeff-controleprobleem
My Number gebruikt het Verhoeff-algoritme voor het controlecijfer. Verhoeff is een wiskundige methode die alle enkelvoudige cijferfouten detecteert. Het detecteert ook alle fouten waarbij twee aangrenzende cijfers worden omgewisseld. Voor de berekening zijn drie opzoektabellen nodig. Het is niet met de hand te berekenen; het vereist code.
Dit is om twee redenen van belang. Ten eerste lijkt het Japanse 12-cijferige formaat op veel andere codes. Factuurverwijzingen, document-ID's en datumstrings hebben allemaal hetzelfde formaat. Zonder een Verhoeff-controle markeert een tool onjuiste waarden. Ten tweede gebruiken de meeste tools geen Verhoeff. Ze gebruiken eenvoudigere modulo-10- of modulo-11-controles. Die werken hier niet.
Uit het PPC-onderzoek bleek dat 63% van de tools de controle overslaat of een eenvoudigere methode gebruikt. Beide problemen doen zich tegelijkertijd voor: valse positieven en gemiste detecties.
Het Luhn-algoritme, gebruikt voor creditcards, is eenvoudiger. My Number gebruikt geen Luhn. Tools die zijn gebouwd voor Luhn werken hier niet.
Drie schriften, één naam
Japanse tekst gebruikt drie schrijfsystemen tegelijk. Een tool moet alle drie aankunnen.
Hiragana (ひらがな): Gebruikt voor grammatica en inheemse woorden. 46 basistekens.
Katakana (カタカナ): Gebruikt voor buitenlandse woorden en namen. 46 basistekens. Buitenlandse namen in Japan worden in dit schrift geschreven.
Kanji (漢字): Symbolen voor zelfstandige naamwoorden en namen. Ongeveer 2.000 zijn in algemeen gebruik.
De naam van één persoon kan in vier vormen voorkomen: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) en Romaji (Tanaka Taro). Een tool moet alle vier herkennen. Als één vorm wordt gemist, worden de meeste records van die persoon gemist.
Andere Japanse identifiers om te detecteren
Rijbewijs (運転免許証番号): 12 cijfers. De eerste twee cijfers geven de prefectuur aan. Tokyo is 10. Osaka is 62. Hierdoor kan een tool controleren of de waarde geldig is voor die regio.
Paspoort (旅券番号): Twee letters plus zeven cijfers. ICAO-formaat. Japan gebruikt specifieke lettercombinaties.
Zorgverzekeringskaart (健康保険証記号番号): Een symbool plus een nummer. Het formaat is afhankelijk van de verzekeraar. De Nationale Zorgverzekering (国民健康保険) en de Maatschappijbeheerde Verzekering (協会けんぽ) gebruiken verschillende formaten.
Verblijfskaart (在留カード番号): Voor buitenlandse inwoners. Twee letters, acht cijfers, twee letters. Het Ministerie van Justitie geeft deze kaart uit.
APPI's anonimiseringsregel
De APPI heeft een strikte standaard voor geanonimiseerde gegevens, de zogenoemde geanonimiseerde informatie (匿名加工情報). Op één cruciaal punt gaat dit verder dan de GDPR. Anonimisering moet door derden verifieerbaar en technisch onomkeerbaar zijn.
Om hieraan te voldoen moet een organisatie:
- Alle directe identifiers verwijderen, inclusief My Number.
- Alle quasi-identifier-combinaties afhandelen.
- k-anonimiteit of een vergelijkbare methode toepassen.
- Een algemene beschrijving van de genomen stappen publiceren.
- Nooit proberen de gegevens te re-identificeren.
De PPC-richtlijn voor AI uit 2024 voegt een specifieke regel toe. Als u een AI traint op geanonimiseerde gegevens, mag u dat model niet gebruiken om personen te re-identificeren. Dit is een directe ban op modelinversie-aanvallen op APPI-trainingssets.
Om aan PPC-normen te voldoen zijn vier zaken nodig. Ten eerste Verhoeff-validatie voor My Number-detectie. Ten tweede Japanse NER met behulp van ja_core_news en correcte tokenisatie. Ten derde naamkoppeling over Kanji, Kana en Romaji heen. Ten vierde prefectuurcodecontroles voor rijbewijzen.
India gebruikt Aadhaar, waarvoor ook Verhoeff-validatie vereist is. De technische nalevingsgids voor India DPDPA behandelt dat uitgebreid. Voor meerlandenidentifier-detectie, zie EU nationale belasting-ID-detectie onder de GDPR.