anonym.legal

By · Last updated 2026-06-05

Terug naar BlogGDPR & Naleving

Japan My Number: Verhoeff & APPI

63% van de generieke tools faalt bij My Number-detectie in Japanse documenten. My Number gebruikt het Verhoeff-algoritme — de meest complexe nationale ID-controlesom in Azië.

June 5, 20268 min lezen
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number: APPI en de Verhoeff-controle

Japans Personal Information Protection Commission (PPC) heeft in 2024 45 handhavingsbesluiten uitgevaardigd. Tevens publiceerde de PPC Japan's eerste AI-privacyrichtlijn. Uit een PPC-onderzoek bleek dat 63% van de generieke NLP-tools My Number (マイナンバー) niet detecteert in Japanse bestanden. Als uw team gegevens verwerkt van Japanse inwoners, levert deze lacune direct APPI-risico op.

Wat My Number is

Japan kent elke inwoner een unieke 12-cijferige identifier toe. Dit is My Number, onderdeel van het Individual Number System (マイナンバー制度). Het omvat belastingen, pensioenen, zorgverzekeringen en rampenrespons. Deze identifier is gevoelige informatie onder de APPI. Voor het verzamelen of delen ervan is een wettelijke grondslag vereist.

Het Verhoeff-controleprobleem

My Number gebruikt het Verhoeff-algoritme voor het controlecijfer. Verhoeff is een wiskundige methode die alle enkelvoudige cijferfouten detecteert. Het detecteert ook alle fouten waarbij twee aangrenzende cijfers worden omgewisseld. Voor de berekening zijn drie opzoektabellen nodig. Het is niet met de hand te berekenen; het vereist code.

Dit is om twee redenen van belang. Ten eerste lijkt het Japanse 12-cijferige formaat op veel andere codes. Factuurverwijzingen, document-ID's en datumstrings hebben allemaal hetzelfde formaat. Zonder een Verhoeff-controle markeert een tool onjuiste waarden. Ten tweede gebruiken de meeste tools geen Verhoeff. Ze gebruiken eenvoudigere modulo-10- of modulo-11-controles. Die werken hier niet.

Uit het PPC-onderzoek bleek dat 63% van de tools de controle overslaat of een eenvoudigere methode gebruikt. Beide problemen doen zich tegelijkertijd voor: valse positieven en gemiste detecties.

Het Luhn-algoritme, gebruikt voor creditcards, is eenvoudiger. My Number gebruikt geen Luhn. Tools die zijn gebouwd voor Luhn werken hier niet.

Drie schriften, één naam

Japanse tekst gebruikt drie schrijfsystemen tegelijk. Een tool moet alle drie aankunnen.

Hiragana (ひらがな): Gebruikt voor grammatica en inheemse woorden. 46 basistekens.

Katakana (カタカナ): Gebruikt voor buitenlandse woorden en namen. 46 basistekens. Buitenlandse namen in Japan worden in dit schrift geschreven.

Kanji (漢字): Symbolen voor zelfstandige naamwoorden en namen. Ongeveer 2.000 zijn in algemeen gebruik.

De naam van één persoon kan in vier vormen voorkomen: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) en Romaji (Tanaka Taro). Een tool moet alle vier herkennen. Als één vorm wordt gemist, worden de meeste records van die persoon gemist.

Andere Japanse identifiers om te detecteren

Rijbewijs (運転免許証番号): 12 cijfers. De eerste twee cijfers geven de prefectuur aan. Tokyo is 10. Osaka is 62. Hierdoor kan een tool controleren of de waarde geldig is voor die regio.

Paspoort (旅券番号): Twee letters plus zeven cijfers. ICAO-formaat. Japan gebruikt specifieke lettercombinaties.

Zorgverzekeringskaart (健康保険証記号番号): Een symbool plus een nummer. Het formaat is afhankelijk van de verzekeraar. De Nationale Zorgverzekering (国民健康保険) en de Maatschappijbeheerde Verzekering (協会けんぽ) gebruiken verschillende formaten.

Verblijfskaart (在留カード番号): Voor buitenlandse inwoners. Twee letters, acht cijfers, twee letters. Het Ministerie van Justitie geeft deze kaart uit.

APPI's anonimiseringsregel

De APPI heeft een strikte standaard voor geanonimiseerde gegevens, de zogenoemde geanonimiseerde informatie (匿名加工情報). Op één cruciaal punt gaat dit verder dan de GDPR. Anonimisering moet door derden verifieerbaar en technisch onomkeerbaar zijn.

Om hieraan te voldoen moet een organisatie:

  1. Alle directe identifiers verwijderen, inclusief My Number.
  2. Alle quasi-identifier-combinaties afhandelen.
  3. k-anonimiteit of een vergelijkbare methode toepassen.
  4. Een algemene beschrijving van de genomen stappen publiceren.
  5. Nooit proberen de gegevens te re-identificeren.

De PPC-richtlijn voor AI uit 2024 voegt een specifieke regel toe. Als u een AI traint op geanonimiseerde gegevens, mag u dat model niet gebruiken om personen te re-identificeren. Dit is een directe ban op modelinversie-aanvallen op APPI-trainingssets.

Om aan PPC-normen te voldoen zijn vier zaken nodig. Ten eerste Verhoeff-validatie voor My Number-detectie. Ten tweede Japanse NER met behulp van ja_core_news en correcte tokenisatie. Ten derde naamkoppeling over Kanji, Kana en Romaji heen. Ten vierde prefectuurcodecontroles voor rijbewijzen.

India gebruikt Aadhaar, waarvoor ook Verhoeff-validatie vereist is. De technische nalevingsgids voor India DPDPA behandelt dat uitgebreid. Voor meerlandenidentifier-detectie, zie EU nationale belasting-ID-detectie onder de GDPR.

Bronnen

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.