anonym.legal

By · Last updated 2026-06-05

Nazaj na blogGDPR in skladnost

Japonska stevilka My Number: Verhoeff in APPI

63 % genericnih orodij ne zazna stevilke My Number v japonskih dokumentih. My Number uporablja algoritem Verhoeff -- najzahtevnejso nacionalno ID kontrolno vsoto v Aziji.

June 5, 20268 min branja
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

Japonska stevilka My Number: APPI in preverba Verhoeff

Japonska komisija za varstvo osebnih podatkov (PPC) je leta 2024 izdala 45 izvedbenih odlocb. Objavila je tudi japonska prva navodila o zasebnosti pri umetni inteligenci. Studija PPC je pokazala, da 63 % genericnih orodij NLP ne zazna stevilke My Number (マイナンバー) v japonskih datotekah. Ce vasa ekipa obravnava podatke japonskih rezidentov, ta vrzel pomeni neposredno tveganje po APPI.

Kaj je stevilka My Number

Japonska dodeli vsakemu rezidentu edinstven 12-mestni identifikator. To je My Number, del sistema individualnih stevilk (マイナンバー制度). Pokriva davke, pokojnine, zdravstveno zavarovanje in odziv na nesrece. Ta identifikator je obcutljiv podatek po APPI. Potrebujete pravni razlog za njegovo zbiranje ali skupno rabo.

Problem preverbe Verhoeff

Stevilka My Number za svojo kontrolno cifro uporablja algoritem Verhoeff. Verhoeff je matematicna metoda, ki zazna vse enociferne napake. Zazna tudi vse napake, pri katerih se dve sosednji cifri zamenjata. Za delovanje potrebuje tri iskalne tabele. Ne morete ga izracunati rocno. Zahteva kodo.

To je pomembno iz dveh razlogov. Prvic, japonski 12-mestni format je podoben mnogim drugim kodam. Referenci racunov, identifikatorji dokumentov in nizi datumov si delijo isti format. Brez preverbe Verhoeff bo orodje oznacevalo napacne vrednosti. Drugic, vecina orodij ne uporablja Verhoeff. Uporabljajo enostavnejse preverbe modulo-10 ali modulo-11. Te tu ne delujejo.

Studija PPC je pokazala, da 63 % orodij preverbo bodisi preskoci ali pa uporabi enostavnejso metodo. Oba problema se pojavljata hkrati: lazno pozitivni in lazno negativni rezultati.

Luhnov algoritem, ki se uporablja za kreditne kartice, je enostavnejsi. Stevilka My Number ne uporablja Luhn. Orodja, zgrajena za Luhn, tu ne bodo delovala.

Tri pisave, eno ime

Japonsko besedilo hkrati uporablja tri pisalne sisteme. Orodje mora obvladati vse tri.

Hiragana (ひらがな): Uporablja se za slovnico in domace besede. 46 osnovnih znakov.

Katakana (カタカナ): Uporablja se za tuje besede in imena. 46 osnovnih znakov. Tuja imena na Japonskem so v tej pisavi.

Kanji (漢字): Simboli za samostalnike in imena. Priblizno 2.000 je v splosni rabi.

Ime ene osebe se lahko pojavi v stirih oblikah: Kanji (田中太郎), Hiragana (たなかたろう), Katakana (タナカ タロウ) in Romaji (Tanaka Taro). Orodje mora ujemati vse stiri. Ce eno zamudi, zamudi vecino zapisov te osebe.

Drugi japonski ID-ji za zaznavanje

Vozniško dovoljenje (運転免許証番号): 12 cifer. Prvi dve cifri prikazujeta prefekturo. Tokio je 10. Osaka je 62. To orodju omogoca preverjanje, ali je vrednost veljavna za to obmocje.

Potni list (旅券番号): Dve crki plus sedem cifer. Format ICAO. Japonska uporablja specificne pare crk.

Kartica zdravstvenega zavarovanja (健康保険証記号番号): Simbol plus stevilka. Format je odvisen od zavarovalnice. Nacionalno zdravstveno zavarovanje (国民健康保険) in druzbeno zavarovanje (協会けんぽ) uporabljata razlicne formate.

Kartica stalnega bivalisca (在留カード番号): Za tuje rezidente. Dve crki, osem cifer, dve crki. To kartico izdaja Ministrstvo za pravosodje.

Pravilo APPI o anonimizaciji

APPI ima strog standard za anonimizacijo podatkov, imenovan anonimizirani podatki (匿名加工情報). V enem kljucnem pogledu presega GDPR. Anonimizacija mora biti preverljiva s strani tretjih oseb in tehnicno nepreklicna.

Za skladnost mora organizacija:

  1. Odstraniti vse neposredne identifikatorje, vkljucno s stevilko My Number.
  2. Obravnavati vse kombinacije kvazi-identifikatorjev.
  3. Uporabiti k-anonimnost ali podobno metodo.
  4. Objaviti splosni opis sprejetih ukrepov.
  5. Nikoli ne poskusati ponovno identificirati podatkov.

Smernice PPC za umetno inteligenco iz leta 2024 dodajajo specificno pravilo. Ce ucite umetno inteligenco na anonimiziranih podatkih, tega modela ne smete uporabiti za ponovno identifikacijo ljudi. To je neposredna prepoved napadov na inverzijo modela na APPI ucnih nizih.

Za izpolnitev standardov PPC potrebujete stiri stvari. Prvic, validacijo Verhoeff za zaznavanje stevilke My Number. Drugic, japonski NER z uporabo ja_core_news s pravilno tokenizacijo. Tretjic, ujemanje imen v Kanji, Kana in Romaji. Cetrtic, preverjanje kod prefektur za vozniška dovoljenja.

Indija uporablja Aadhaar, ki prav tako zahteva validacijo Verhoeff. Tehnicni vodnik za skladnost z indijskim DPDPA to podrobno pokriva. Za zaznavanje vecnacionalnih identifikatorjev glejte zaznavanje EU nacionalnih davcnih ID-jev po GDPR.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.