By · Last updated 2026-06-05

Tillbaka till BloggenGDPR & Efterlevnad

Japans My Number: Verhoeff & APPI

63 % av generiska verktyg misslyckas med att detektera My Number i japanska dokument. My Number använder Verhoeff-algoritmen — den mest komplexa nationella ID-kontrollsumman i Asien.

June 5, 20268 min läsning
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japans My Number: APPI och Verhoeff-kontrollen

Japans dataskyddsmyndighet PPC (Personal Information Protection Commission) utfärdade 45 tillsynsbeslut under 2024. Den publicerade även Japans första vägledning om AI och integritet. En PPC-studie visade att 63 % av generiska NLP-verktyg misslyckas med att detektera My Number (マイナンバー) i japanska filer. Om ditt team hanterar data om japanska invånare innebär den luckan en direkt APPI-risk.

Vad My Number är

Japan tilldelar varje invånare en unik 12-siffrig identifierare. Det är My Number, som ingår i det individuella nummersystemet (マイナンバー制度). Det täcker skatt, pension, sjukförsäkring och katastrofinsatser. Denna identifierare är känslig data under APPI. Du behöver ett lagstadgat skäl för att samla in eller dela den.

Problemet med Verhoeff-kontrollen

My Number använder Verhoeff-algoritmen för sin kontrollsiffra. Verhoeff är en matematisk metod som fångar alla enkelsiffer-fel. Den fångar även alla fel där två angränsande siffror byter plats. Den kräver tre uppslagstabeller för att fungera. Du kan inte beräkna den för hand. Den kräver kod.

Detta är viktigt av två skäl. Först: Japans 12-siffersformat liknar många andra koder. Fakturareferenser, dokument-ID och datumsträngar delar samma format. Utan en Verhoeff-kontroll flaggar ett verktyg felaktiga värden. Andra: de flesta verktyg använder inte Verhoeff. De använder enklare modulo-10- eller modulo-11-kontroller. De fungerar inte här.

PPC-studien visade att 63 % av verktygen antingen hoppar över kontrollen eller använder en enklare metod. Båda problemen uppstår samtidigt: falska positiver och falska negativa.

Luhn-algoritmen, som används för kreditkort, är enklare. My Number använder inte Luhn. Verktyg byggda för Luhn fungerar inte här.

Tre skriftsystem, ett namn

Japansk text använder tre skriftsystem samtidigt. Ett verktyg måste hantera alla tre.

Hiragana (ひらがな): Används för grammatik och inhemska ord. 46 grundtecken.

Katakana (カタカナ): Används för utländska ord och namn. 46 grundtecken. Utländska namn i Japan skrivs i detta skriftsystem.

Kanji (漢字): Symboler för substantiv och namn. Ungefär 2 000 är i allmänt bruk.

En persons namn kan förekomma i fyra former: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) och Romaji (Tanaka Taro). Ett verktyg måste matcha alla fyra. Missar det en, missar det merparten av den personens poster.

Andra japanska ID:n att detektera

Körkort (運転免許証番号): 12 siffror. De första två siffrorna anger prefektur. Tokyo är 10. Osaka är 62. Det gör att ett verktyg kan kontrollera om värdet är giltigt för den regionen.

Pass (旅券番号): Två bokstäver plus sju siffror. ICAO-format. Japan använder specifika bokstavspar.

Sjukförsäkringskort (健康保険証記号番号): En symbol plus ett nummer. Formatet beror på försäkringsgivaren. National Health Insurance (国民健康保険) och Society-Managed Insurance (協会けんぽ) använder olika format.

Uppehållskort (在留カード番号): För utländska invånare. Två bokstäver, åtta siffror, två bokstäver. Justitieministeriet utfärdar detta kort.

APPI:s anonymiseringsregel

APPI har en strikt standard för anonymiserade uppgifter kallad anonymiserad information (匿名加工情報). Den går längre än GDPR på en central punkt. Anonymisering måste vara tredjepartsverifierbar och tekniskt irreversibel.

För att uppfylla kraven måste en organisation:

  1. Ta bort alla direkta identifierare, inklusive My Number.
  2. Hantera alla kombinationer av kvasiidentifierare.
  3. Använda k-anonymitet eller liknande metod.
  4. Publicera en allmän beskrivning av de vidtagna åtgärderna.
  5. Aldrig försöka återidentifiera data.

PPC:s AI-vägledning från 2024 tillfogar en specifik regel. Om du tränar en AI på anonymiserade data, kan du inte använda den modellen för att återidentifiera personer. Det är ett direkt förbud mot modellinversionsattacker mot APPI-träningsdata.

För att uppfylla PPC:s standarder behöver du fyra saker. Först, Verhoeff-validering för My Number-detektering. Andra, japansk NER med ja_core_news och korrekt tokenisering. Tredje, namnmatchning över Kanji, Kana och Romaji. Fjärde, prefekterkodkontroller för körkort.

Indien använder Aadhaar, som också kräver Verhoeff-validering. Den tekniska efterlevnadsguiden för Indien DPDPA täcker det i detalj. För detektering av identifierare i flera länder, se EU:s nationella skatte-ID-detektering under GDPR.

Källor

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.