By · Last updated 2026-06-05

بلاگ پر واپس جائیںGDPR اور تعمیل

جاپان My Number: Verhoeff اور APPI

63% عام ٹولز جاپانی دستاویزات میں My Number کی شناخت میں ناکام رہتے ہیں۔ My Number Verhoeff الگورتھم استعمال کرتا ہے — ایشیا کا سب سے پیچیدہ قومی ID چیک سم۔

June 5, 20268 منٹ پڑھیں
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

جاپان My Number: APPI اور Verhoeff چیک

جاپان کے پرسنل انفارمیشن پروٹیکشن کمیشن (PPC) نے 2024 میں 45 نافذ العمل فیصلے جاری کیے۔ اس نے جاپان کی پہلی AI پرائیویسی گائیڈنس بھی شائع کی۔ PPC مطالعے میں پایا گیا کہ 63% عام NLP ٹولز جاپانی فائلوں میں My Number (マイナンバー) کی شناخت میں ناکام رہتے ہیں۔ اگر آپ کی ٹیم جاپانی رہائشیوں کا ڈیٹا سنبھالتی ہے تو یہ فرق براہ راست APPI خطرے کا مطلب ہے۔

My Number کیا ہے

جاپان ہر رہائشی کو ایک منفرد 12 ہندسوں کی شناخت دیتا ہے۔ یہ My Number ہے، جو انفرادی نمبر نظام (マイナンバー制度) کا حصہ ہے۔ یہ ٹیکس، پنشن، صحت انشورنس، اور آفت ردعمل کو کور کرتا ہے۔ یہ شناخت APPI کے تحت حساس ڈیٹا ہے۔ اسے اکٹھا یا شیئر کرنے کے لیے قانونی وجہ ضروری ہے۔

Verhoeff چیک کا مسئلہ

My Number اپنے چیک ہندسے کے لیے Verhoeff الگورتھم استعمال کرتا ہے۔ Verhoeff ایک ریاضیاتی طریقہ ہے جو تمام واحد ہندسے کی غلطیاں پکڑتا ہے۔ یہ دو ملحقہ ہندسوں کی تبدیلی کی تمام غلطیاں بھی پکڑتا ہے۔ اسے کام کرنے کے لیے تین lookup ٹیبل کی ضرورت ہے۔ آپ اسے ہاتھ سے حساب نہیں کر سکتے۔ اس کے لیے کوڈ ضروری ہے۔

یہ دو وجوہات سے اہم ہے۔ پہلی، جاپان کا 12 ہندسوں کا فارمیٹ بہت سے دیگر کوڈز جیسا دکھتا ہے۔ انوائس ریفرنسز، دستاویز IDs، اور تاریخ کی سٹرنگز سبھی ایک ہی فارمیٹ شیئر کرتے ہیں۔ Verhoeff چیک کے بغیر، ایک ٹول غلط اقدار کو فلیگ کرے گا۔ دوسری، زیادہ تر ٹولز Verhoeff استعمال نہیں کرتے۔ وہ آسان modulo-10 یا modulo-11 چیکس استعمال کرتے ہیں۔ وہ یہاں کام نہیں کرتے۔

PPC مطالعے میں پایا گیا کہ 63% ٹولز یا تو چیک کو چھوڑ دیتے ہیں یا آسان طریقہ استعمال کرتے ہیں۔ دونوں مسائل ایک ساتھ ہوتے ہیں: غلط مثبت اور غلط منفی۔

Luhn الگورتھم، جو کریڈٹ کارڈز کے لیے استعمال ہوتا ہے، آسان ہے۔ My Number Luhn استعمال نہیں کرتا۔ Luhn کے لیے بنے ٹولز یہاں کام نہیں کریں گے۔

تین اسکرپٹس، ایک نام

جاپانی متن بیک وقت تین تحریری نظام استعمال کرتا ہے۔ ایک ٹول کو تینوں کو سنبھالنا ہوگا۔

Hiragana (ひらがな): گرامر اور مقامی الفاظ کے لیے استعمال ہوتا ہے۔ 46 بنیادی حروف۔

Katakana (カタカナ): غیر ملکی الفاظ اور ناموں کے لیے استعمال ہوتا ہے۔ 46 بنیادی حروف۔ جاپان میں غیر ملکی نام اس اسکرپٹ میں ظاہر ہوتے ہیں۔

Kanji (漢字): اسم اور ناموں کے لیے علامات۔ عام استعمال میں تقریباً 2,000 ہیں۔

ایک شخص کا نام چار شکلوں میں ظاہر ہو سکتا ہے: Kanji (田中太郎)، Hiragana (たなかたろう)، Katakana (タナカ タロウ)، اور Romaji (Tanaka Taro)۔ ایک ٹول کو چاروں سے ملانا ہوگا۔ اگر یہ ایک سے چوک جائے، تو اس شخص کے زیادہ تر ریکارڈ چھوٹ جاتے ہیں۔

دیگر جاپانی IDs کی شناخت

ڈرائیور لائسنس (運転免許証番号): 12 ہندسے۔ پہلے دو ہندسے صوبہ دکھاتے ہیں۔ ٹوکیو 10 ہے۔ اوساکا 62 ہے۔ یہ ٹول کو یہ چیک کرنے دیتا ہے کہ آیا قدر اس علاقے کے لیے درست ہے۔

پاسپورٹ (旅券番号): دو حروف اور سات ہندسے۔ ICAO فارمیٹ۔ جاپان مخصوص حرف جوڑے استعمال کرتا ہے۔

صحت انشورنس کارڈ (健康保険証記号番号): ایک علامت اور ایک نمبر۔ فارمیٹ انشورر پر منحصر ہے۔ نیشنل ہیلتھ انشورنس (国民健康保険) اور سوسائٹی مینیجڈ انشورنس (協会けんぽ) مختلف فارمیٹ استعمال کرتے ہیں۔

رہائش کارڈ (在留カード番号): غیر ملکی رہائشیوں کے لیے۔ دو حروف، آٹھ ہندسے، دو حروف۔ وزارت انصاف یہ کارڈ جاری کرتی ہے۔

APPI کا گمنامی کا اصول

APPI میں گمنام ڈیٹا کا ایک سخت معیار ہے جسے anonymized information (匿名加工情報) کہتے ہیں۔ یہ ایک اہم شعبے میں GDPR سے آگے جاتا ہے۔ گمنامی تیسرے فریق کی طرف سے قابل تصدیق اور تکنیکی طور پر ناقابل واپسی ہونی چاہیے۔

تعمیل کے لیے ایک تنظیم کو:

  1. تمام براہ راست شناخت کنندگان، بشمول My Number، ہٹانے ہوں گے۔
  2. تمام quasi-identifier مجموعوں کو سنبھالنا ہوگا۔
  3. k-anonymity یا اسی طرح کا طریقہ استعمال کرنا ہوگا۔
  4. کیے گئے اقدامات کی عمومی تفصیل شائع کرنی ہوگی۔
  5. ڈیٹا کی دوبارہ شناخت کبھی نہیں کرنی ہوگی۔

PPC کی 2024 AI گائیڈنس ایک مخصوص اصول شامل کرتی ہے۔ اگر آپ گمنام ڈیٹا پر AI تربیت دیتے ہیں، تو آپ اس ماڈل کو لوگوں کی دوبارہ شناخت کے لیے استعمال نہیں کر سکتے۔ یہ APPI تربیتی سیٹوں کے خلاف ماڈل inversion حملوں پر براہ راست پابندی ہے۔

PPC معیارات پورے کرنے کے لیے آپ کو چار چیزیں چاہئیں۔ پہلی، My Number شناخت کے لیے Verhoeff validation۔ دوسری، مناسب tokenization کے ساتھ ja_core_news استعمال کرتے ہوئے جاپانی NER۔ تیسری، Kanji، Kana، اور Romaji میں نام ملانا۔ چوتھی، ڈرائیور لائسنسز کے لیے صوبے کے کوڈ چیکس۔

ہندوستان Aadhaar استعمال کرتا ہے، جس کے لیے Verhoeff validation بھی ضروری ہے۔ India DPDPA technical compliance guide اسے تفصیل سے کور کرتی ہے۔ کثیر ملکی شناخت شناخت کے لیے، EU national tax ID detection under GDPR دیکھیں۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.