العودة إلى المدونةأمان الذكاء الاصطناعي

39 مليون تسرب أسرار على GitHub في 2024...

67% من المطورين قد كشفوا عن أسرار عن طريق الخطأ في الشيفرة (GitGuardian 2025). تم تسريب 39 مليون سر على GitHub في 2024، بزيادة قدرها 25% على أساس سنوي.

March 29, 20268 دقيقة قراءة
GitHub secret leaksdeveloper AI securitycredential exposureMCP Server protectionGitGuardian 2025

مشكلة بيانات الاعتماد البالغة 39 مليون

وثق تقرير Octoverse 2024 من GitHub 39 مليون سر تم تسريبه على GitHub خلال العام — بزيادة 25% على أساس سنوي مقارنة بعام 2023. تشمل هذه الأسرار مفاتيح API، وسلاسل اتصال قواعد البيانات، ورموز المصادقة، وشهادات خاصة، وبيانات اعتماد مقدمي الخدمات السحابية.

مصدر هذه التسريبات موثق جيدًا: يقوم المطورون بالتزام الشيفرة التي تحتوي على أسرار — إما عن طريق الخطأ (تكوين تصحيح الأخطاء متروك في الالتزام) أو من خلال إدارة أسرار غير كافية (بيانات اعتماد مشفرة بدلاً من متغيرات البيئة). تعكس نسبة 39 مليون النمو في GitHub كمنصة تطوير واستمرار الممارسات غير الآمنة في التطوير على نطاق واسع.

ما لا تلتقطه بيانات Octoverse بالكامل هو مصدر تسريب مرتبط ومتزايد: تفاعلات مساعد البرمجة بالذكاء الاصطناعي. عندما يقوم المطورون بلصق الشيفرة في Claude أو ChatGPT أو أدوات البرمجة بالذكاء الاصطناعي الأخرى من أجل تصحيح الأخطاء أو المراجعة أو المساعدة في التحسين، غالبًا ما تحتوي الشيفرة التي يقومون بلصقها على نفس بيانات الاعتماد التي تنتهي بها المطاف في تسريبات أسرار GitHub — سلاسل اتصال قواعد البيانات، مفاتيح API، عناوين URL للخدمات الداخلية، ورموز المصادقة.

كيف يخلق استخدام المطورين للذكاء الاصطناعي تعرض بيانات الاعتماد

وجد بحث GitGuardian من 2025 أن 67% من المطورين قد كشفوا عن أسرار عن طريق الخطأ في الشيفرة. أنماط السلوك التي تنتج تسريبات أسرار GitHub هي نفس أنماط السلوك التي تنتج تعرض بيانات الاعتماد في أدوات الذكاء الاصطناعي — لكن مصدر أدوات الذكاء الاصطناعي أقل وضوحًا وأصعب في الكشف عنه بعد وقوعه.

يقوم مطور بتصحيح مشكلة اتصال الإنتاج بلصق تتبع المكدس الذي يتضمن سلسلة اتصال قاعدة البيانات المستخدمة في رسالة الخطأ. يقوم نموذج الذكاء الاصطناعي بمعالجة سلسلة الاتصال، ويحتمل أن يخزنها في تاريخ المحادثة، وينقلها إلى خوادم مزود الذكاء الاصطناعي. أصبحت بيانات الاعتماد الآن خارج سيطرة المطور.

يقوم مطور يطلب المساعدة في تحسين خط بيانات بلصق شيفرة الخط، بما في ذلك اسم دلو S3، ومفتاح الوصول AWS، والمفتاح السري المستخدم للمصادقة. يتلقى نموذج الذكاء الاصطناعي هذه البيانات كجزء من المساعدة المشروعة في البرمجة.

يقوم مطور يطلب مراجعة الشيفرة بلصق تنفيذ تكامل API الذي يتضمن مفتاح API الشريك. تحتوي طلب المراجعة على بيانات اعتماد إنتاج حية.

في كل حالة، نية المطور مشروعة — يحتاجون إلى المساعدة في مشكلة تقنية. تعرض بيانات الاعتماد هو نتيجة عرضية لإدراج سياق تصحيح الأخطاء. يعكس النمط تمامًا كيف تنتهي الأسرار في GitHub: ليس إفشاءً خبيثًا ولكن إدراجًا عرضيًا.

اتجاه تسريبات خطوط CI/CD

تسريبات بيانات PII والأسرار للمطورين في خطوط CI/CD زادت بنسبة 34% في 2024، وفقًا لبيانات التتبع. المصدر مشابه: يتم مراجعة نصوص البناء، وتكوينات النشر، وملفات البنية ككود بشكل متزايد باستخدام أدوات الذكاء الاصطناعي. تحتوي هذه الملفات بشكل روتيني على مراجع متغيرات البيئة، وبيانات اعتماد مقدمي الخدمات السحابية، ورموز حسابات الخدمة.

مع زيادة اعتماد أدوات الذكاء الاصطناعي في سير العمل التطويري — يستخدم المطورون الذكاء الاصطناعي لمراجعة الشيفرة، والتوثيق، وتصحيح الأخطاء، والتحسين عبر دورة حياة التطوير الكاملة — تزداد مساحة السطح لتعرض بيانات الاعتماد العرضي بشكل متناسب.

حل بنية MCP

لفرق التطوير التي تستخدم Claude Desktop أو Cursor IDE كأدوات البرمجة بالذكاء الاصطناعي الأساسية، توفر بنية بروتوكول سياق النموذج (MCP) طبقة شفافة لاعتراض بيانات الاعتماد.

يقع خادم MCP بين عميل الذكاء الاصطناعي للمطور وواجهة برمجة تطبيقات نموذج الذكاء الاصطناعي. يتم تمرير كل النصوص المرسلة عبر بروتوكول MCP — بما في ذلك الشيفرة الملصقة، وتتبع المكدس، وملفات التكوين، وسياق تصحيح الأخطاء — عبر محرك إخفاء الهوية قبل الوصول إلى نموذج الذكاء الاصطناعي.

يكتشف محرك إخفاء الهوية الأنماط الشبيهة ببيانات الاعتماد: تنسيقات مفاتيح API، وهياكل سلاسل اتصال قواعد البيانات، وتنسيقات رموز OAuth، ورؤوس المفاتيح الخاصة، وتنسيقات بيانات الاعتماد المخصصة التي تم تكوينها بواسطة فريق الأمان. يتم استبدال هذه الأنماط برموز منظمة قبل النقل.

بالنسبة للمطور الذي يقوم بتصحيح مشكلة اتصال الإنتاج: تصل سلسلة الاتصال التي تحتوي على سلسلة اتصال قاعدة البيانات إلى خادم MCP. يتم استبدال سلسلة الاتصال برمز ([DB_CONNECTION_1]). يتلقى نموذج الذكاء الاصطناعي تتبع المكدس مع استبدال بيانات الاعتماد. يتم تقديم المساعدة في تصحيح الأخطاء بناءً على النسخة المجهولة. يتلقى المطور ردًا يستخدم نفس الرمز — كافٍ لفهم المشكلة التقنية. لم تغادر بيانات الاعتماد الفعلية الشبكة المؤسسية أبدًا.

تعكس تسريبات أسرار GitHub البالغة 39 مليون نتيجة عدم كفاية الضوابط على مصدر تسريب معروف. تعرض بيانات اعتماد مساعد البرمجة بالذكاء الاصطناعي هو نفس مصدر التسريب في قناة أقل مراقبة. التحكم الفني الذي يعالج كليهما هو اعتراض بيانات الاعتماد قبل النقل.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.