রিয়েল-টাইম PII প্রতিরোধ: AI ডেটা লিক হওয়ার আগেই থামানো।
২০২৬ সালের জন্য আপডেট করা হয়েছে।
২০২৩ সালের মার্চ মাসে, Samsung-এর একজন প্রকৌশলী ChatGPT-তে সোর্স কোড পেস্ট করেন। সেই কোড তাৎক্ষণিকভাবে Samsung-এর নিয়ন্ত্রণের বাইরে চলে যায়। কোনো সরঞ্জাম সময়মতো তা ধরতে পারেনি। পরবর্তীকালীন নিরাপত্তা নিয়ন্ত্রণ AI ডেটা লিক থামাতে সক্ষম নয়। এই একটি ঘটনা তা প্রমাণ করে দিয়েছে।
ডিটেকশন সরঞ্জামগুলো আপনাকে বলে যা ঘটনার পরে ঘটেছে। লগ চেক, এন্ডপয়েন্ট DLP, এবং অডিট লগ সবই এভাবে কাজ করে। AI লিকের ক্ষেত্রে, ঘটনার পরে অনেক দেরি হয়ে যায়। ডেটা ইতোমধ্যেই AI মডেলে পৌঁছে গেছে।
সমস্যার পরিধি
২০২৫ সালের Cyberhaven গবেষণা দেখেছে কীভাবে প্রতিষ্ঠানগুলো AI ব্যবহার করে। ফলাফল ছিল চমকপ্রদ।
- ChatGPT-এর সমস্ত প্রম্পটের ১১% ব্যক্তিগত বা সংবেদনশীল ডেটা ধারণ করে।
- গড় কর্মী প্রতিদিন AI সরঞ্জাম ১৪ বার ব্যবহার করেন।
- বেশি ব্যবহারকারী কর্মীরা প্রতিদিন ৩০ থেকে ৫০ বার ইন্টারঅ্যাক্ট করেন।
- ১১% হিসেবে, এর মানে প্রতি কর্মী প্রতিদিন ৩ থেকে ৫টি সংবেদনশীল পাঠান।
৫০০ জন বেশি ব্যবহারকারী কর্মীর একটি প্রতিষ্ঠানে, এটি প্রতিদিন ২,০০০-এরও বেশি সংবেদনশীল পাঠানো যোগ করে। প্রতিটি GDPR আর্টিকেল ৮৩ লঙ্ঘন হতে পারে। ঝুঁকি শুধু আইনি নয়। বিশ্বাস এবং সুনামও ঝুঁকিতে পড়ে।
AI প্রম্পটে সাধারণ ধরনের সংবেদনশীল বিষয়বস্তুতে নিম্নলিখিতগুলো অন্তর্ভুক্ত।
- গ্রাহকের নাম এবং যোগাযোগের তথ্য।
- অ্যাকাউন্ট নম্বর এবং পেমেন্ট রেকর্ড।
- স্বাস্থ্যকর্মীদের মেডিকেল নোট।
- আইনজীবীদের কেস বিবরণ।
- HR দলের কর্মী মূল্যায়ন নোট।
- অভ্যন্তরীণ রাজস্ব বা বিক্রয় পূর্বাভাস।
গবেষণাটি ইচ্ছাকৃত এবং দুর্ঘটনাবশত শেয়ারিং আলাদা করে না। উভয়ই একই আইনি ঝুঁকি তৈরি করে। যে কর্মী ক্লায়েন্টের নাম সরাতে ভুলে যান তিনি একই লঙ্ঘন ঘটান যিনি ইচ্ছাকৃতভাবে নিয়ম উপেক্ষা করেন। উদ্দেশ্য ফলাফল পরিবর্তন করে না।
কেন ডিটেকশন যথেষ্ট নয়
নেটওয়ার্ক চেক TLS ব্লক ছাড়া HTTPS ট্রাফিক পড়তে পারে না। TLS ব্লকিং ওভারহেড যোগ করে এবং গোপনীয়তা উদ্বেগ তোলে। আধুনিক ব্রাউজারগুলো প্রায়ই এটি প্রত্যাখ্যান করে।
এন্ডপয়েন্ট DLP এজেন্টগুলো ক্লিপবোর্ড এবং কীস্ট্রোক ইনপুট দেখে। কিন্তু তাদের বিলম্ব আছে। এজেন্ট একটি প্যাটার্ন ফ্ল্যাগ করার আগেই, প্রম্পটটি ইতোমধ্যেই পাঠানো হয়ে যেতে পারে।
ভেন্ডর অডিট লগ শেয়ার করার পরে কী শেয়ার হয়েছে তা রেকর্ড করে। তারা প্রতিক্রিয়ায় সাহায্য করে। তারা লিক থামায় না।
কর্মী প্রশিক্ষণ একটি নীতি, নিয়ন্ত্রণ নয়। Cyberhaven গবেষণা দেখায় স্পষ্ট নীতি সহ প্রতিষ্ঠানেও ১১% প্রম্পটে সংবেদনশীল বিষয়বস্তু থাকে। প্রশিক্ষণ দুর্ঘটনাজনিত শেয়ারিং বা কাজের মাঝখানে ভুল থামায় না।
AI সরঞ্জাম ব্লক করা আউটপুট সুবিধা সরিয়ে দেয়। কর্মীরা তখন ব্যক্তিগত ডিভাইস বা অ্যাকাউন্ট ব্যবহার করেন। এটি কাজকে যেকোনো তদারকির বাইরে রাখে।
এই পদ্ধতিগুলোর কোনোটিই রিয়েল-টাইমে AI সিস্টেমে সংবেদনশীল বিষয়বস্তু পৌঁছানো থামায় না।
প্রবেশের পয়েন্টে প্রতিরোধ
একমাত্র নিরাপদ প্রতিরক্ষা হলো প্রম্পটটি পাঠানোর আগেই মাস্কিং। ব্রাউজার ছেড়ে যাওয়ার আগে [PERSON_1] দিয়ে প্রতিস্থাপিত গ্রাহকের নাম কখনো AI মডেলের দ্বারা দেখা যায় না।
ইনলাইন মাস্কিং কীভাবে কাজ করে তা এখানে।
- একজন কর্মী Claude বা ChatGPT-তে একটি গ্রাহকের ইমেইল টাইপ করেন।
- ব্রাউজার অ্যাড-অন রিয়েল-টাইমে ব্যক্তিগত ডেটা শনাক্ত করে।
- সত্তাগুলো টাইপ লেবেল দিয়ে চিহ্নিত হয়: PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER।
- কর্মী চিহ্নিত আইটেমগুলো পর্যালোচনা করেন।
- একটি ক্লিকে সমস্ত সত্তা টোকেন দিয়ে পরিবর্তিত হয়।
- মাস্কড প্রম্পটটি পাঠানো হয়।
AI এরকম একটি প্রম্পট পায়: "গ্রাহক [PERSON_1] [EMAIL_1]-তে অ্যাকাউন্ট [ACCOUNT_1] রাখেন।"
AI অনুরোধটি পরিচালনা করে। এটি কখনো আসল নাম বা নম্বর দেখে না। কর্মী প্রসঙ্গ থেকে আসল গ্রাহককে জানেন।
এই পদ্ধতির স্পষ্ট সুবিধা আছে।
- ব্যক্তিগত ডেটা বাহ্যিক AI সিস্টেমের বাইরে থাকে।
- গ্রাহকের বিবরণ AI প্রশিক্ষণ সেটে যোগ হয় না।
- কর্মীরা AI সরঞ্জামে প্রবেশাধিকার রাখেন। আউটপুট উঁচু থাকে।
কোনো কর্মী সরঞ্জামটি বাইপাস করলে এটি ইচ্ছাকৃত শেয়ারিং থামায় না। ফাইল আপলোডের আলাদা ওয়ার্কফ্লো প্রয়োজন। কোনো নিয়ন্ত্রণ নিখুঁত নয়। কিন্তু ইনলাইন মাস্কিং দুর্ঘটনাজনিত গোষ্ঠীটিকে সরিয়ে দেয়। সেই গোষ্ঠী বেশিরভাগ ঘটনা তৈরি করে। ফলাফল হলো কর্মপ্রবাহে কোনো পরিবর্তন ছাড়াই ঝুঁকিতে বড় হ্রাস।