By · Last updated 2026-06-05

العودة إلى المدونةالامتثال لـ GDPR

رقم My Number الياباني: خوارزمية Verhoeff وقانون APPI

63% من الأدوات العامة تعجز عن اكتشاف رقم My Number في الوثائق اليابانية. يعتمد My Number خوارزمية Verhoeff — أكثر خوارزميات التحقق تعقيداً في آسيا لأرقام الهوية الوطنية.

June 5, 20268 دقيقة قراءة
Japan PPCMy Number VerhoeffJapanese language NERAPPI complianceJapanese PII

أصدرت هيئة حماية المعلومات الشخصية (PPC) في اليابان 45 قراراً تنفيذياً في 2024 ونشرت أول دليل ياباني متخصص لخصوصية الذكاء الاصطناعي. وكشف التقييم التقني لـPPC لعام 2024 أن 63% من أدوات NLP العامة المنشورة لمعالجة الوثائق اليابانية تعجز عن الكشف الدقيق عن رقم My Number (マイナンバー) — رقم الهوية الوطني الياباني المكوّن من 12 خانة. تُشكّل هذه الثغرة لدى المؤسسات التي تمارس عمليات في اليابان أو تعالج بيانات المواطنين اليابانيين انكشافاً مباشراً لمخاطر عدم الامتثال لقانون APPI.

رقم My Number: تحدي التحقق بخوارزمية Verhoeff

يُخصِّص نظام الرقم الفردي الياباني (マイナンバー制度، نظام My Number) رقماً فريداً مكوّناً من 12 خانة لكل مقيم في اليابان. يُستخدم رقم My Number في:

  • الإدارة الضريبية (الإقرارات الضريبية، كشوف الاستقطاع)
  • الضمان الاجتماعي (التسجيل في التقاعد والتأمين الصحي)
  • الاستجابة للكوارث (التعريف في حالات الطوارئ)

خوارزمية Verhoeff: يعتمد رقم التحقق في My Number خوارزمية Verhoeff — وهي خوارزمية كشف أخطاء نظرية المجموعات تقدر على اكتشاف جميع أخطاء الخانة الواحدة وجميع أخطاء التبديل المتجاور. تستخدم الخوارزمية ثلاثة جداول بحث: جدول ضرب المجموعة الثنائية (D5)، وجدول المعكوس، وجدول التبديل.

يستلزم تطبيق Verhoeff الاحتفاظ بهذه الجداول الثلاثة وتطبيق سلسلة من عمليات البحث. على عكس خوارزمية Luhn (الحساب المعياري البسيط)، لا يمكن حساب Verhoeff ذهنياً — بل يستلزم تطبيقاً برمجياً.

أهمية ذلك لكشف البيانات الشخصية:

  • يتطابق تنسيق My Number المكوّن من 12 خانة مع أرقام مرجعية كثيرة في الوثائق اليابانية
  • بدون التحقق بخوارزمية Verhoeff، تُولّد الأدوات إيجابيات كاذبة كثيرة من أرقام الفواتير ورموز المراجع وتسلسلات التاريخ والوقت
  • الأدوات التي تطبق فحوصات معيارية أبسط (modulo 10 أو 11) لا تستطيع التحقق من My Number وستُفوّت الأرقام التي يتطلب التحقق منها تشغيل Verhoeff

وجد تقييم PPC لعام 2024 أن 63% من الأدوات المنشورة إما تطابق الأنماط دون تحقق أو تطبق فحوصات معيارية أبسط — مما يُولّد إيجابيات كاذبة وسلبيات كاذبة في آنٍ واحد.

النص الياباني: تحدي نظام الكتابة الثلاثي

يستخدم النص الياباني ثلاثة أنظمة كتابة في آنٍ واحد:

Hiragana (ひらがな): مقطعية صوتية تُستخدم للجسيمات النحوية ونهايات الأفعال والكلمات اليابانية الأصيلة. 46 حرفاً أساسياً.

Katakana (カタカナ): مقطعية صوتية تُستخدم للكلمات الأجنبية والمصطلحات التقنية والتأكيد. 46 حرفاً أساسياً. تُكتب الأسماء الأجنبية في اليابانية عادةً بالـKatakana.

Kanji (漢字): حروف لوغوغرافية مشتقة من الصينية، تُستخدم للأسماء وجذور الأفعال والأسماء. تستخدم اليابانية نحو 2,000 Kanji شائع.

تشفير الأسماء اليابانية: قد يظهر اسم شخص ياباني واحد في:

  • صيغة Kanji: 田中太郎
  • Hiragana (دليل نطق، furigana): たなかたろう
  • Katakana (كمحتوى أجنبي): タナカ タロウ
  • Romaji (حروف لاتينية): Tanaka Taro أو TANAKA Taro (للوثائق الدولية)

يجب أن تتعرف أداة البيانات الشخصية على الأشكال الأربعة للاسم ذاته — وإلا ستُفوّت غالبية ظهور الأسماء في الوثائق اليابانية.

أرقام الهوية اليابانية الوطنية

رقم رخصة القيادة (運転免許証番号): 12 خانة تبدأ برمز محافظة مكوّن من خانتين (10 لطوكيو، 62 لأوساكا). تُتيح رموز المحافظة التحقق الجغرافي من رقم الرخصة.

جواز السفر الياباني (旅券番号): تنسيق ICAO القياسي — حرفان يعقبهما 7 أرقام. تتبع تركيبات الحروف اليابانية اصطلاحات الإصدار المحددة.

رقم شهادة التأمين الصحي (健康保険証記号番号): يتفاوت تنسيق رمز التأمين + الرقم بحسب جهة التأمين (لليابان أنظمة تأمين صحي متعددة لفئات توظيف مختلفة). يختلف التأمين الشامل (国民健康保険) عن تأمين الجمعيات (協会けんぽ).

رقم بطاقة الإقامة (在留カード番号): للمقيمين الأجانب — التنسيق حرفان + 8 أرقام + حرفان، تصدرها وزارة العدل.

معيار المعلومات المجهولة الهوية في قانون APPI

يُرسي قانون APPI الياباني معياراً أكثر صرامة من GDPR في جانب محدد: يشترط معيار "المعلومات المجهولة الهوية" (匿名加工情報) أن تكون إخفاء الهوية قابلاً للتحقق من طرف ثالث وغير قابل للعكس تقنياً. يجب على المؤسسات التي تُنشئ مجموعات بيانات مجهولة الهوية:

  1. حذف أو استبدال جميع المعرّفات المباشرة (بما فيها My Number)
  2. معالجة جميع تركيبات شبه المعرّفات
  3. تطبيق k-anonymity أو ما يعادلها
  4. نشر التدابير المتخذة (وصف عام دون الكشف عن تفاصيل التنفيذ)
  5. عدم محاولة إعادة تعريف البيانات المجهولة

تضيف توجيهات PPC للذكاء الاصطناعي لعام 2024: لا يجوز للمؤسسات التي تستخدم مجموعات البيانات المجهولة في تدريب الذكاء الاصطناعي استخدام النموذج المُنتَج لمحاولة إعادة تعريف الأفراد من بيانات التدريب — وهو حظر صريح على هجمات انعكاس النموذج ضد مجموعات التدريب المجهولة بموجب APPI.

للامتثال مع APPI: الكشف عن My Number بمنطق التحقق بـVerhoeff، وNER باليابانية باستخدام spaCy ja_core_news مع تقطيع ياباني، والتعرف على الأسماء بأشكال Kanji/Kana/Romaji المتعددة، والتحقق من رموز المحافظة لرخصة القيادة هي الخط الأساسي للامتثال التقني مع PPC.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.