এক বছরে ৩৯ মিলিয়ন credentials লিক
GitHub-এর Octoverse 2024 রিপোর্টে দেখা গেছে ২০২৪ সালে GitHub-এ ৩৯ মিলিয়ন secrets লিক হয়েছে। এটি ২০২৩ থেকে বছরে ২৫% বৃদ্ধি। secrets-এর মধ্যে রয়েছে API key, database string, auth token এবং cloud credential।
কারণ জানা। ডেভেলপাররা ভেতরে secrets নিয়ে কোড commit করেন। secrets debug session থেকে আসে। অথবা environment variable-এ সংরক্ষণের পরিবর্তে hardcoded করা হয়। ৩৯ মিলিয়ন লিকে, এটি বিরল নয়। এটি নিয়মিত।
AI টুল একটি দ্বিতীয় লিক চ্যানেল যোগ করে
GitGuardian-এর ২০২৫ গবেষণায় দেখা গেছে যে ৬৭% ডেভেলপার দুর্ঘটনাক্রমে কোডে secrets প্রকাশ করেছেন। একই অভ্যাস যা GitHub লিক তৈরি করে AI টুল লিকও তৈরি করে।
একজন ডেভেলপার সাহায্যের জন্য Claude, ChatGPT বা অন্য কোনো AI assistant-এ কোড paste করেন। সেই কোডে প্রায়ই live credential থাকে। AI মডেল secret পায়। এটি conversation history-তে সংরক্ষণ করতে পারে। এটি provider-এর সার্ভারে পাঠায়। ডেভেলপার নিয়ন্ত্রণ হারান — কোনো সতর্কতা ছাড়াই।
তিনটি উদাহরণ:
Database debugging। একজন ডেভেলপার একটি stack trace paste করেন। trace-এ connection string রয়েছে। AI পাসওয়ার্ডও পড়ে।
Pipeline পর্যালোচনা। একজন ডেভেলপার একটি data pipeline script শেয়ার করেন। script-এ একটি AWS access key এবং secret key রয়েছে। AI উভয়ই পায়।
API integration পর্যালোচনা। একজন ডেভেলপার একটি integration-এ মতামত চান। কোডে একটি live partner API key রয়েছে। key ডেভেলপারের network ছেড়ে যায়।
প্রতিটি ক্ষেত্রে লক্ষ্য বৈধ সাহায্য। credential লিক হলো AI-কে যথেষ্ট প্রসঙ্গ দেওয়ার পার্শ্ব প্রতিক্রিয়া। এটি GitHub লিকের মতোই প্যাটার্ন — দূষিত নয়, শুধু নিয়মিত।
CI/CD পাইপলাইন একই ঝুঁকির মুখোমুখি
CI/CD pipeline secret লিক ২০২৪ সালে ৩৪% বৃদ্ধি পেয়েছে। Build script, deployment config এবং infrastructure-as-code ফাইল সবই এখন AI review-এর মধ্য দিয়ে যায়। এই ফাইলগুলো প্রায়ই cloud credential এবং service account token ধারণ করে।
যখন AI টুল dev cycle-এর আরও বেশি অংশ কভার করে — review, docs, debugging, optimization — exposure surface তাদের সাথে বাড়ে।
কীভাবে MCP আর্কিটেকচার লিক ব্লক করে
Claude Desktop বা Cursor IDE ব্যবহারকারী দলগুলোর জন্য, Model Context Protocol (MCP) server architecture ডেভেলপার এবং AI মডেলের মধ্যে পথে একটি credential filter রাখে।
MCP server প্রতিটি টেক্সট পরিচালনা করে যা session-এর মধ্য দিয়ে যায়। Pasted code, stack trace, config ফাইল, debug context — সব কিছু মডেল দেখার আগে একটি anonymization ধাপের মধ্য দিয়ে যায়।
ইঞ্জিনটি credential প্যাটার্ন খুঁজে পায়: API key ফরম্যাট, database string, OAuth token, private key header এবং আপনার security দল যে কাস্টম ফরম্যাট নির্ধারণ করে। প্রতিটি match পাঠানোর আগে একটি token দিয়ে প্রতিস্থাপিত হয়।
ব্যবহারিকভাবে এটি কেমন দেখায়:
একজন ডেভেলপার একটি database connection string সহ একটি stack trace paste করেন। MCP server string-টিকে [DB_CONNECTION_1] দিয়ে প্রতিস্থাপন করে। AI token সহ trace দেখে। এটি anonymized version-এর উপর ভিত্তি করে debugging সাহায্য দেয়। প্রকৃত credential কখনো internal network ছেড়ে যায়নি।
এটি একই লিক vector বন্ধ করে যা GitHub-কে secrets দিয়ে পূর্ণ করে। চ্যানেল আলাদা — AI টুল, git commit নয় — কিন্তু fix একইভাবে কাজ করে: পাঠানোর আগে এটি ব্লক করুন।
anonym.legal AI টুল এবং document workflow জুড়ে এটি কীভাবে পরিচালনা করে তার জন্য আমাদের security overview দেখুন, এবং অডিট নিয়ন্ত্রণের জন্য compliance center দেখুন।
পরবর্তীতে সত্য শনাক্তকরণ দেরি হয়ে যায়
কিছু দল leacked secrets ধরতে post-commit scanning ব্যবহার করে। GitGuardian এবং truffleHog GitHub চ্যানেলের জন্য ভালো কাজ করে। এগুলো AI টুল session কভার করে না।
যখন একটি secret AI provider-এর সার্ভারে পৌঁছায়, exposure হয়ে গেছে। Scanning পরে এটি খুঁজে পায়। MCP-layer anonymization এটিকে মডেলে পৌঁছানো থেকেই বিরত রাখে।
৩৯ মিলিয়ন GitHub লিক একটি চ্যানেল নথিভুক্ত করে। AI টুল exposure হলো কম monitoring এবং কোনো audit trail ছাড়া চ্যানেলে একই সমস্যা। পাঠানোর আগে prevention উভয়ই কভার করে।