জাপান PPC এবং APPI: AI প্রশিক্ষণ ডেটা সম্মতি
জাপানের PPC হলো APPI প্রয়োগকারী সংস্থা। ২০২২ সালের সংশোধনীগুলো আগের যেকোনো আপডেটের চেয়ে বেশি পরিবর্তন এনেছে। এতে ছদ্মনাম করা রেকর্ড, আন্তঃসীমান্ত স্থানান্তর এবং AI প্রশিক্ষণ সেটের নিয়ম যুক্ত হয়েছে। PPC ২০২৪ সালে ৪৫টি রায় জারি করেছে। সেই বছর প্রথমবারের মতো জাপান-নির্দিষ্ট AI গোপনীয়তা গাইডও প্রকাশ করেছে।
আপনার প্রতিষ্ঠান যদি জাপানি পাঠ্যে মডেল প্রশিক্ষণ দেয় বা জাপানি ব্যবহারকারীর রেকর্ড ধরে রাখে, তাহলে এই নিয়মগুলো এখনই প্রযোজ্য।
২০২২ সংশোধনীতে কী পরিবর্তন হয়েছে
২.৪ মিলিয়ন জাপানি উদ্যোগকে গোপনীয়তার নিয়ম হালনাগাদ করতে এবং পরিচালনা পদক্ষেপ পুনর্গঠন করতে হয়েছিল।
ছদ্মনামকৃত তথ্য (仮名加工情報): একটি নতুন মধ্যবর্তী শ্রেণি। এটি সরাসরি শনাক্তকারী অপসারিত ব্যক্তিগত রেকর্ড অন্তর্ভুক্ত করে। চাবিকাঠি থাকলে পুনঃশনাক্তকরণ এখনও সম্ভব। সম্পূর্ণ সম্মতি ছাড়াই এই রেকর্ড একটি প্রতিষ্ঠানের মধ্যে স্থানান্তর করা যায়। তৃতীয় পক্ষের কাছে পাঠানো যাবে না। GDPR-তে এমন কোনো শ্রেণি নেই।
বেনামী তথ্য (匿名加工情報): পুনঃশনাক্তকরণ প্রযুক্তিগতভাবে অসম্ভব হতে হবে। একজন যোগ্য তৃতীয় পক্ষকে এটি নিশ্চিত করতে হবে। এই বিষয়ে জাপানের মান GDPR-এর চেয়ে উঁচুতে। GDPR ওই পর্যালোচনাকে ঐচ্ছিক করে, APPI বাধ্যতামূলক।
আন্তঃসীমান্ত স্থানান্তর: অন্য দেশে স্থানান্তর জাপানের সুরক্ষার মান পূরণ করতে হবে। PPC অনুমোদিত দেশের তালিকা রক্ষণাবেক্ষণ করে। ইউরোপীয় ইউনিয়ন সেই তালিকায় আছে।
AI প্রশিক্ষণ সেট: ২০২৪ সালের PPC নির্দেশিকা সরাসরি এটি কভার করে।
- প্রশিক্ষণ সেট সম্পূর্ণ বেনামী হতে হবে বা বৈধ আইনি ভিত্তির উপর থাকতে হবে — সাধারণত সম্মতি।
- প্রক্রিয়াকরণ ব্যতিক্রম শুধুমাত্র তখন প্রযোজ্য যখন মডেল তার আউটপুট থেকে মানুষ শনাক্ত করতে পারবে না।
- ওয়েবসাইট থেকে স্ক্র্যাপ করা জাপানি রেকর্ডে প্রশিক্ষিত LLM ডেভেলপারদের একটি বৈধ সংগ্রহের ভিত্তি দেখাতে হবে।
আন্তঃসীমান্ত সমন্বয় দায়িত্বের সম্পূর্ণ দৃষ্টিভঙ্গির জন্য দেখুন /legal/compliance।
My Number: জাপানের জাতীয় আইডি
My Number (マイナンバー) একটি ১২-সংখ্যার জাতীয় আইডি। জাপান সমস্ত বাসিন্দাদের এটি প্রদান করে। বিদেশি নাগরিকরাও পান। ব্যবস্থাটি ২০১৬ সাল থেকে চলছে। এটি কর, সামাজিক নিরাপত্তা এবং দুর্যোগ প্রতিক্রিয়া কভার করে।
চেক ডিজিট কীভাবে কাজ করে: My Number Verhoeff পদ্ধতি ব্যবহার করে। এটি একটি গণিত-ভিত্তিক ত্রুটি-যাচাই পদ্ধতি। এটি Luhn-এর চেয়ে তৈরি করা কঠিন — সেই পদ্ধতি সুইডিশ personnummer এবং কানাডিয়ান SIN-এর জন্য ব্যবহৃত হয়। বেশিরভাগ ইউরোপীয় আইডি সহজ মডুলার গণিত ব্যবহার করে।
সনাক্তকরণ কেন কঠিন: ১২-সংখ্যার স্ট্রিং স্ক্যান করলে লক্ষ্য মিস হবে। তারিখ, পোস্টাল কোড এবং চালান কোড সবই একই দেখায়। সেগুলো বাছাই করতে সম্পূর্ণ Verhoeff লজিক প্রয়োজন। সাধারণ regex যথেষ্ট নয়।
PPC-এর ২০২৪ পর্যালোচনায় একটি স্পষ্ট আবিষ্কার ছিল। ৬৩% সাধারণ NLP টুল জাপানি রেকর্ডে My Number সনাক্ত করতে ব্যর্থ হয়।
anonym.legal কীভাবে My Number পরিচালনা করে তা দেখুন /entities-তে।
একসাথে তিনটি লিখন ব্যবস্থা
জাপানি একসাথে Hiragana, Katakana এবং Kanji ব্যবহার করে। কিছু প্রসঙ্গে রোমান লিপিও দেখা যায়। একই নাম রেকর্ড জুড়ে ভিন্ন দেখাতে পারে। ল্যাটিন-লিপির জন্য তৈরি টুলগুলো অতিরিক্ত সমর্থন ছাড়া জাপানিতে ব্যর্থ হয়।
নাম সনাক্তকরণে এর অর্থ:
- জাপানি NER-এর জন্য জাপানি পাঠ্যে প্রশিক্ষিত মডেল দরকার। spaCy ja_core_news ব্যবহার করুন।
- জাপানিতে শব্দের মধ্যে কোনো স্থান নেই। শব্দ বিভাজন একটি আলাদা ধাপ। এটির জন্য জাপান-সচেতন টুল প্রয়োজন।
- ব্যক্তির নাম Hiragana বা Katakana-তে পাঠের গাইড সহ Kanji-তে আসে। টুলকে উভয় রূপ ধরতে হবে।
- কোম্পানির নাম (会社名, 株式会社) জাপান-নির্দিষ্ট নিয়ম প্রয়োজন।
APAC ভাষায় NER-এর জন্য দেখুন /docs/faq।
অন্যান্য জাপানি আইডি ফরম্যাট
ড্রাইভিং লাইসেন্স: ইস্যু অঞ্চলের প্রিফিক্স কোড সহ ১২ সংখ্যা। কোডগুলো নির্দিষ্ট — টোকিও ১০, ওসাকা ৬২। অঞ্চলের অংশ যাচাইযোগ্য।
পাসপোর্ট: জাপান-নির্দিষ্ট ইস্যু নিয়ম সহ স্ট্যান্ডার্ড ICAO ফরম্যাট।
স্বাস্থ্য বীমা কার্ড (健康保険証): প্রতীক (記号) প্লাস নম্বর। ফরম্যাট বীমাকারীভেদে পরিবর্তিত হয়।
আবাসিক কার্ড (在留カード): বিদেশি বাসিন্দাদের জন্য। ফরম্যাট: দুটি অক্ষর, আট সংখ্যা, দুটি অক্ষর। বিচার মন্ত্রণালয় এগুলো ইস্যু করে।
জাপান–EU ডেটা স্থানান্তর স্থিতি
জাপান এবং EU-র ২০১৯ সাল থেকে পারস্পরিক পর্যাপ্ততা রয়েছে। ব্যক্তিগত রেকর্ড অতিরিক্ত পদক্ষেপ ছাড়াই EU এবং জাপানের মধ্যে প্রবাহিত হয়। জাপান সম্পূর্ণ EU পর্যাপ্ততা সহ খুব কম অ-ইউরোপীয় দেশগুলির মধ্যে একটি।
চুক্তিটি মানসম্পন্ন ব্যক্তিগত রেকর্ড কভার করে। সংবেদনশীল স্বাস্থ্য এবং ফৌজদারি ইতিহাসের রেকর্ডে পর্যাপ্ততার অধীনেও অতিরিক্ত সুরক্ষা প্রয়োজন। এই রেকর্ড স্থানান্তরকারী সংস্থাগুলিকে অতিরিক্ত পদক্ষেপ লগ করতে হবে।
আপনার স্থানান্তর দায়িত্ব পর্যালোচনা করুন /security-compliance-তে।
আপনার জাপান সম্মতি চেকলিস্ট
আপনি যদি জাপানি ব্যক্তিগত রেকর্ড পরিচালনা করেন তাহলে এখান থেকে শুরু করুন:
- Verhoeff চেক-ডিজিট লজিক সহ My Number সনাক্তকরণ।
- জাপানি-লিপি পাঠ্যে প্রশিক্ষিত মডেল সহ জাপানি NER — ল্যাটিন-লিপি মডেল নয়।
- পাঠের গাইড ভেরিয়েন্ট সহ Kanji, Hiragana এবং Katakana নামের ফর্ম সমর্থন।
- অঞ্চল কোড যাচাই সহ ড্রাইভিং লাইসেন্স সনাক্তকরণ।
- MOJ ফরম্যাট লজিক সহ আবাসিক কার্ড সনাক্তকরণ।
- ইস্যুকারী ভেরিয়েন্ট জুড়ে স্বাস্থ্য বীমা কার্ড সনাক্তকরণ।
- ব্যক্তিগত রেকর্ড ধারণকারী প্রতিটি AI প্রশিক্ষণ সেটের জন্য বৈধ আইনি ভিত্তি।
- APPI-এর অধীনে বেনামী হিসাবে শ্রেণিবদ্ধ যেকোনো রেকর্ডের জন্য তৃতীয় পক্ষের পর্যালোচনা।
- EU–জাপান পর্যাপ্ততা চুক্তির অধীনে সরানো সংবেদনশীল রেকর্ডের জন্য অতিরিক্ত সুরক্ষা।
এই গাইডে ব্যবহৃত APPI পদগুলির সংজ্ঞার জন্য দেখুন /docs/glossary।