کمیسیون حفاظت از اطلاعات شخصی ژاپن (PPC) و APPI: انطباق دادههای آموزشی هوش مصنوعی
کمیسیون حفاظت از اطلاعات شخصی ژاپن (PPC) قانون APPI را اجرا میکند. اصلاحات سال ۲۰۲۲ بیشترین تغییر را نسبت به هر بازنگری قبلی در این قانون ایجاد کرد. این اصلاحات قواعد جدیدی برای دادههای مستعار، انتقال داده به خارج از کشور و مجموعه دادههای آموزشی هوش مصنوعی وضع کرد. کمیسیون PPC در سال ۲۰۲۴ چهل و پنج حکم صادر و اولین راهنمای حریم خصوصی هوش مصنوعی ویژه ژاپن را منتشر کرد.
اگر شرکت شما با متون ژاپنی مدل آموزشی میسازد یا اطلاعات کاربران ژاپنی را نگهداری میکند، این قوانین اکنون اعمال میشوند.
تغییرات اصلاحات ۲۰۲۲
۲.۴ میلیون شرکت ژاپنی ملزم به بازنگری مقررات حریم خصوصی و اصلاح فرآیندهای مدیریت داده شدند.
اطلاعات مستعار (仮名加工情報): یک دستهبندی میانه جدید. این دسته شامل دادههای شخصی است که شناسههای مستقیم از آنها حذف شده. بازشناسی مجدد با داشتن کلید همچنان ممکن است. این دادهها میتوانند بدون نیاز به رضایت مجدد در داخل سازمان جابجا شوند، اما انتقال به اشخاص ثالث مجاز نیست. GDPR چنین دستهبندیای ندارد.
اطلاعات ناشناس (匿名加工情報): بازشناسی مجدد باید از نظر فنی غیرممکن باشد و یک ارزیاب مستقل این مسئله را تأیید کند. معیار ژاپن در این زمینه سختگیرانهتر از GDPR است — GDPR این بررسی را اختیاری میداند اما APPI آن را اجباری میکند.
انتقال داده به خارج از کشور: انتقال داده به کشورهای دیگر باید با استانداردهای حمایتی ژاپن همخوانی داشته باشد. کمیسیون PPC فهرستی از کشورهای تأیید شده نگهداری میکند که اتحادیه اروپا در آن قرار دارد.
مجموعه دادههای آموزشی هوش مصنوعی: راهنمای PPC در سال ۲۰۲۴ این موضوع را مستقیماً پوشش داد:
- مجموعه دادههای آموزشی باید کاملاً ناشناس باشند یا بر پایه مبنای قانونی معتبر — معمولاً رضایت — استوار شوند.
- استثنای پردازش تنها در صورتی اعمال میشود که مدل نتواند افراد را از خروجیهایش شناسایی کند.
- توسعهدهندگان مدلهای زبانی بزرگ که از متون ژاپنی جمعآوریشده از وب آموزش میدهند باید مبنای قانونی معتبر برای جمعآوری این دادهها ارائه کنند.
برای مروری جامع بر تکالیف هماهنگسازی انتقال دادههای فرامرزی، به /legal/compliance مراجعه کنید.
My Number: شناسه ملی ژاپن
My Number (マイナンバー) یک شماره شناسه ملی ۱۲ رقمی است. ژاپن این شماره را به تمام ساکنان — از جمله اتباع خارجی — اختصاص میدهد. این سیستم از سال ۲۰۱۶ فعال است و حوزههای مالیات، تأمین اجتماعی و واکنش به بلایا را پوشش میدهد.
نحوه عملکرد رقم کنترل: My Number از روش Verhoeff استفاده میکند — یک طرح بررسی خطا مبتنی بر ریاضیات که پیچیدهتر از روش Luhn است (روشی که برای personnummer سوئدی و SIN کانادا بهکار میرود). اکثر شناسههای اروپایی از جبر پیمانهای سادهتری استفاده میکنند.
چرا شناسایی دشوار است: جستجوی ساده برای رشتههای ۱۲ رقمی کافی نیست. تاریخها، کدهای پستی و کدهای فاکتور همه شکل یکسانی دارند. برای تمایز آنها به منطق کامل Verhoeff نیاز است و regex ساده کافی نیست.
بررسی سال ۲۰۲۴ کمیسیون PPC یافته هشداردهندهای داشت: ۶۳ درصد از ابزارهای NLP عمومی در تشخیص My Number در اسناد ژاپنی شکست میخورند.
نحوه پشتیبانی anonym.legal از My Number را در /entities ببینید.
سه سیستم نوشتاری بهطور همزمان
زبان ژاپنی از هیراگانا، کاتاکانا و کانجی بهطور همزمان استفاده میکند و در برخی زمینهها الفبای لاتین نیز ظاهر میشود. یک نام ممکن است در اسناد مختلف به شکلهای متفاوتی نوشته شود. ابزارهایی که برای متنهای الفبای لاتین ساخته شدهاند بدون پشتیبانی اضافه در زبان ژاپنی با شکست مواجه میشوند.
پیامدها برای تشخیص نام:
- NER ژاپنی نیاز به مدلهایی دارد که بر روی متن ژاپنی آموزش دیده باشند؛ از spaCy ja_core_news استفاده کنید.
- زبان ژاپنی فاصله بین کلمات ندارد — تقطیع کلمه یک مرحله مستقل است که نیاز به ابزارهای آگاه از ژاپنی دارد.
- نام افراد به شکل کانجی با راهنمای خوانش هیراگانا یا کاتاکانا نوشته میشود — ابزارها باید هر دو شکل را تشخیص دهند.
- نام شرکتها (会社名, 株式会社) نیاز به قوانین خاص ژاپن دارد.
برای NER در زبانهای آسیایی، به /docs/faq مراجعه کنید.
دیگر فرمتهای شناسه ژاپنی
گواهینامه رانندگی: ۱۲ رقم با کد پیشوند برای منطقه صدور. کدها ثابت هستند — توکیو کد ۱۰ و اوزاکا کد ۶۲ دارند. بخش منطقه قابل اعتبارسنجی است.
گذرنامه: فرمت استاندارد ICAO با قوانین صدور خاص ژاپن.
کارت بیمه درمانی (健康保険証): نماد (記号) بهعلاوه شماره. فرمت بسته به بیمهگر متفاوت است.
کارت اقامت (在留カード): برای ساکنان خارجی. فرمت: دو حرف، هشت رقم، دو حرف. وزارت دادگستری این کارتها را صادر میکند.
وضعیت انتقال داده ژاپن - اتحادیه اروپا
ژاپن و اتحادیه اروپا از سال ۲۰۱۹ توافق کفایت متقابل دارند. دادههای شخصی میتوانند بدون مراحل اضافه بین EU و ژاپن جابجا شوند. ژاپن یکی از معدود کشورهای غیراروپایی با کفایت کامل اروپایی است.
این توافق دادههای شخصی استاندارد را پوشش میدهد. دادههای حساس بهداشتی و سوابق جنایی حتی تحت توافق کفایت نیاز به تدابیر حمایتی اضافی دارند. شرکتهایی که این دادهها را جابجا میکنند باید مراحل اضافی اتخاذشده را مستند کنند.
تکالیف انتقال داده خود را در /security-compliance بازبینی کنید.
چکلیست انطباق ژاپن
اگر با دادههای شخصی ژاپنی سر و کار دارید، از اینجا شروع کنید:
- تشخیص My Number با منطق رقم کنترل Verhoeff
- NER ژاپنی با مدلهای آموزشدیده بر روی متن ژاپنی — نه مدلهای متن لاتین
- پشتیبانی از فرمهای نام کانجی، هیراگانا و کاتاکانا بههمراه انواع راهنمای خوانش
- تشخیص گواهینامه رانندگی با بررسی کد منطقه
- تشخیص کارت اقامت با منطق فرمت وزارت دادگستری
- تشخیص کارت بیمه درمانی در انواع مختلف بیمهگران
- مبنای قانونی معتبر برای هر مجموعه داده آموزشی هوش مصنوعی که شامل داده شخصی است
- بررسی شخص ثالث برای هر دادهای که تحت APPI بهعنوان ناشناس طبقهبندی شده
- تدابیر حمایتی اضافی برای دادههای حساس منتقلشده تحت توافق کفایت EU-ژاپن
تعاریف اصطلاحات APPI مورد استفاده در این راهنما را در /docs/glossary ببینید.