By · Last updated 2026-06-05

Til baka á BloggGDPR & Samræmi

Japan My Number: Verhoeff og APPI

63% almennra verkfæra mistekst My Number uppgreining í japanskum skjölum. My Number notar Verhoeff reiknirit - flóknasta þjóðlega auðkennisgátartölu í Asíu.

June 5, 20268 mín lestur
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japan My Number: APPI og Verhoeff Gátartalan

Japanskt Persónuverndarnefnd (PPC) gaf út 45 framkvæmdarákvarðanir árið 2024. Það birti einnig fyrstu AI persónuverndarleiðbeiningar Japans. PPC-rannsókn leiddi í ljós að 63% almennra NLP-verkfæra mistekst við að greina My Number (マイナンバー) í japönskum skrám. Ef lið þitt vinnur með gögn japanskra íbúa þýðir þessi bilun bein APPI-áhætta.

Hvað er My Number

Japan gefur sérhverjum íbúa einstakt 12 stafa auðkenni. Þetta er My Number, hluti af einstaklingsnúmerkerfi (マイナンバー制度). Það nær yfir skatta, lífeyri, sjúkratryggingar og viðbrögð við náttúruhamförum. Þetta auðkenni er viðkvæm gögn samkvæmt APPI. Þú þarft lagalega ástæðu til að safna eða deila því.

Vandinn með Verhoeff-gátartöluna

My Number notar Verhoeff reiknirit fyrir gátarstafinn sinn. Verhoeff er stærðfræðiaðferð sem grípir allar staka stafavillur. Hún grípir einnig allar villur þar sem tveir samliggjandi stafir skipast á. Hún þarf þrjár uppflettitöflur til að virka. Þú getur ekki reiknað hana handvirkt. Það krefst kóða.

Þetta skiptir máli af tveimur ástæðum. Í fyrsta lagi líkist 12 stafa snið Japans mörgum öðrum kóðum. Reikningartilvísanir, skjalauðkenni og dagsetningarstrengir deila öllum sama sniðið. Án Verhoeff-gátartölu mun verkfæri merkja rangar gildi. Í öðru lagi nota flest verkfæri ekki Verhoeff. Þau nota einfaldari modulo-10 eða modulo-11 gátartölur. Þær virka ekki hér.

PPC-rannsóknin leiddi í ljós að 63% verkfæra sleppir annaðhvort gátartölunni eða notar einfaldari aðferð. Bæði vandamál koma fram samtímis: rangar jákvæðar og rangar neikvæðar niðurstöður.

Luhn reiknirit, notað fyrir kreditkort, er einfaldara. My Number notar ekki Luhn. Verkfæri smíðuð fyrir Luhn virka ekki.

Þrjár leturgerðir, eitt nafn

Japanskt texti notar þrjú ritkerfi samtímis. Verkfæri verður að meðhöndla öll þrjú.

Hiragana (ひらがな): Notað fyrir málfræði og innfædd orð. 46 grunnstafir.

Katakana (カタカナ): Notað fyrir erlend orð og nöfn. 46 grunnstafir. Erlend nöfn í Japan birtast á þessu riti.

Kanji (漢字): Tákn fyrir nafnorð og nöfn. Um 2.000 eru í almennri notkun.

Nafn eins manns getur birst á fjórum formum: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) og Romaji (Tanaka Taro). Verkfæri verður að passa öll fjögur. Ef það saknar eins, saknar það flestar skrár þess einstaklings.

Önnur japönsk auðkenni til að greina

Ökuréttindi (運転免許証番号): 12 stafir. Fyrstu tveir stafir sýna héraðið. Tokyo er 10. Osaka er 62. Þetta gerir verkfæri kleift að athuga hvort gildi sé gilt fyrir það svæði.

Vegabréf (旅券番号): Tveir stafir plús sjö tölustafir. ICAO snið. Japan notar sértæk stafapar.

Sjúkratryggingarkort (健康保険証記号番号): Tákn plús númer. Sniðið fer eftir vátryggingaraðila. Þjóðlegar sjúkratryggingar (国民健康保険) og samfélagsstjórndar tryggingar (協会けんぽ) nota mismunandi snið.

Búsetukorт (在留カード番号): Fyrir erlenda búseta. Tveir stafir, átta tölustafir, tveir stafir. Dómsmálaráðuneytið gefur út þetta kort.

Nafnlægar reglur APPI

APPI hefur strangar nafnlægar gagnaskipanir sem kallast nafnlægar upplýsingar (匿名加工情報). Það gengur lengra en GDPR á einu lykilsviði. Nafnleysi verður að vera staðfest af þriðja aðila og tæknilega óafturkræft.

Til að uppfylla kröfur verður stofnun að:

  1. Fjarlægja öll bein auðkenni, þar á meðal My Number.
  2. Meðhöndla allar hlutauðkennasamsetningar.
  3. Nota k-nafnleysi eða svipaða aðferð.
  4. Birta almenna lýsingu á þrepunum sem voru tekin.
  5. Aldrei reyna að endurgreina gögnin.

AI-leiðbeiningar PPC frá 2024 bætir við sérstakri reglu. Ef þú þjálfar AI á nafnlægum gögnum geturðu ekki notað það líkan til að endurgreina fólk. Þetta er beinn bann á líkaninversnárásum gegn APPI þjálfunargagnasöfnum.

Til að uppfylla PPC-kröfur þarftu fjóra hluti. Í fyrsta lagi Verhoeff-staðfestingu fyrir My Number uppgreiningu. Í öðru lagi japanska NER með ja_core_news með réttri skiptingu. Í þriðja lagi nafnasamsvörun yfir Kanji, Kana og Romaji. Í fjórða lagi héraðskóðagátartölur fyrir ökuréttindi.

Indland notar Aadhaar, sem krefst einnig Verhoeff-staðfestingar. Tæknilegar samræmisleiðbeiningar Indlands DPDPA fjallar um það nánar. Fyrir uppgreiningu fjölþjóðlegra auðkenna, sjá EU þjóðleg skattnúmer PII uppgreining samkvæmt GDPR.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.