BPO ভাষার ফাঁক
APAC সাপোর্ট দলগুলো অনেক স্ক্রিপ্টে চ্যাট পরিচালনা করে। থাই ব্যবহারকারীরা থাইতে লেখে। ইন্দোনেশিয়ান ব্যবহারকারীরা বাহাসায় লেখে। ভিয়েতনামিজ ব্যবহারকারীরা ভিয়েতনামিজে লেখে।
সেই চ্যাট লগগুলোতে PII রয়েছে। নাম। ফোন নম্বর। ঠিকানা। আইডি নম্বর। সবই স্থানীয় স্ক্রিপ্টে।
একক-ভাষার টুলগুলো এখানে ব্যর্থ হয়। তাদের মডেলগুলো পশ্চিমা টেক্সটে প্রশিক্ষিত হয়েছিল। নাম ফাইন্ডাররা ল্যাটিন-স্ক্রিপ্ট নামের ফর্ম শিখেছে। ঠিকানা মডেলগুলো পশ্চিমা ঠিকানার বিন্যাস শিখেছে।
থাই স্ক্রিপ্ট একটি একভাষী মডেলের কাছে অদৃশ্য। একটি ইন্দোনেশিয়ান ঠিকানা ল্যাটিন-স্ক্রিপ্ট প্যাটার্নের সাথে মেলে না। ভিয়েতনামিজ টোনাল টেক্সট আরেকটি মেলবন্ধন স্তর যোগ করে। ফলাফল: অ-ল্যাটিন লগের জন্য কাছাকাছি-শূন্য PII হিট।
বেশিরভাগ APAC চ্যাট ইংরেজিতে নয়। এটি একটি কুলুঙ্গি ফাঁক নয়। বড় BPO-এর জন্য, এটি আদর্শ।
APAC-এ সম্মতির ঝুঁকি
তিনটি ডেটা আইন এখন এই অঞ্চলগুলো কভার করে। প্রতিটি কার্যকর। প্রতিটি APAC গ্রাহকের ডেটা পরিচালনাকারী BPO প্রতিষ্ঠানগুলোতে প্রযোজ্য।
থাইল্যান্ড PDPA: ২০২২ সাল থেকে সক্রিয়। ডেটা মিনিমাইজেশন, সম্মতি এবং নিরাপত্তা নিয়ন্ত্রণ প্রয়োজন। থাই নাম সহ সাপোর্ট লগগুলো এর আওতায় পড়ে।
ইন্দোনেশিয়া PDPLaw: বাসিন্দাদের ডেটা প্রক্রিয়াকারী সমস্ত প্রতিষ্ঠান কভার করে। ব্যক্তিগত রেকর্ডের জন্য নিরাপত্তা ব্যবস্থা প্রয়োজন।
ভিয়েতনাম PDPD: ভিয়েতনামের ২০২৩ ডিক্রি ভিয়েতনামিজ বাসিন্দাদের ডেটা পরিচালনাকারী যেকোনো প্রতিষ্ঠানে প্রযোজ্য। প্রতিষ্ঠানের অবস্থান বিষয় না।
তিনটি একটি মূল নিয়ম শেয়ার করে: PII খুঁজুন এবং রক্ষা করুন। এই নিয়ম প্রতিটি স্ক্রিপ্টে প্রযোজ্য যা একজন গ্রাহক ব্যবহার করে। এই আইনগুলো BPO কাজকে কীভাবে প্রভাবিত করে তার জন্য আমাদের সম্মতি ওভারভিউ দেখুন।
৫০০,০০০-চ্যাটের সমস্যা
একটি সিঙ্গাপুর ফিনটেক প্রতি মাসে ৫০০,০০০ সাপোর্ট চ্যাট চালায়। এটি ১২টি APAC ডায়ালেক্টে গ্রাহকদের পরিষেবা দেয়। তার আইনি দায়িত্ব সমস্ত ৫০০,০০০ কভার করে।
তার ইংরেজি-শুধু টুল শুধুমাত্র ইংরেজি অংশ কভার করে।
ধরুন ৩০% চ্যাট ইংরেজিতে। ধরুন সেখানে নির্ভুলতা ৯০%। এটি প্রায় ১৩৫,০০০ চ্যাট রক্ষা করে। অন্য ৩৬৫,০০০ প্রায় কোনো PII না খুঁজেই পার হয়।
এটি ৭৩% চ্যাট অরক্ষিত রাখে। ৩৬৫,০০০ চ্যাটের ম্যানুয়াল পর্যালোচনা সম্ভব নয়। শুধু কর্মীদের খরচই এটি অব্যবহারিক করে তোলে। স্বয়ংক্রিয় টুলগুলো অবশ্যই ব্যবহৃত স্ক্রিপ্টের বাস্তব মিশ্রণ কভার করতে হবে — শুধু একটি নয়।
ক্রস-লিঙ্গুয়াল সনাক্তকরণ
XLM-RoBERTa হল ১০০-এর বেশি ভাষায় প্রশিক্ষিত একটি মডেল। এটি শেখে যে নাম, স্থান এবং প্রতিষ্ঠানগুলো স্ক্রিপ্ট জুড়ে প্যাটার্ন শেয়ার করে। এটি কাজ করে এমনকি যখন পৃষ্ঠ টেক্সট দেখতে সম্পূর্ণ আলাদা।
APAC কভারেজে চারটি মূল স্ক্রিপ্ট অন্তর্ভুক্ত:
বাহাসা ইন্দোনেশিয়া — নাম, প্রতিষ্ঠান এবং অবস্থান খুঁজে পায়। থাই — ক্রস-লিঙ্গুয়াল ট্রান্সফার মাধ্যমে বেসলাইন PII। ভিয়েতনামিজ — টোনাল-স্ক্রিপ্ট সমর্থন সহ এনটিটি সনাক্তকরণ। ফিলিপিনো — Tagalog-টেক্সট চ্যাটের জন্য কভারেজ।
Stanza সেই স্ক্রিপ্টগুলোর জন্য মডেল যোগ করে যেখানে সেগুলো বিদ্যমান। দুটি টুল একসাথে সম্পূর্ণ APAC মিশ্রণ কভার করে। কোনোটিরই প্রতি স্ক্রিপ্টে আলাদা টুলের প্রয়োজন নেই। সেটআপের পদক্ষেপগুলোর জন্য আমাদের নিরাপত্তা গাইড দেখুন।
সম্মতির প্রভাব স্পষ্ট। ২৭% চ্যাট কভার করার পরিবর্তে, সম্পূর্ণ বহুভাষিক সনাক্তকরণ সবগুলো কভার করে। ম্যানুয়াল পর্যালোচনার সারি লক্ষ লক্ষ থেকে একটি ছোট স্পট-চেকে নামে।
এটি এখন কেন গুরুত্বপূর্ণ
থাইল্যান্ড PDPA, ইন্দোনেশিয়া PDPLaw এবং ভিয়েতনাম PDPD সবই সক্রিয়। নিয়ন্ত্রকরা আশা করে প্রতিষ্ঠানগুলো তাদের গ্রাহকরা যে প্রতিটি স্ক্রিপ্ট ব্যবহার করে তাতে PII খুঁজে পাবে।
একভাষী টুলগুলো সেই মান পূরণ করে না। ক্রস-লিঙ্গুয়াল মডেলগুলো করে। বিস্তৃত APAC ব্যবহারকারী বেস সহ BPO-এর জন্য, ফাঁকটি গুরুত্বপূর্ণ। এটি আইনি ঝুঁকি এবং আইনি কভারের মধ্যকার রেখা।