สิ่งที่ Cursor โหลดเข้าสู่บริบท AI
Cursor โหลดไฟล์ JSON และ YAML ที่กำหนดค่าเข้าสู่บริบท AI โดยค่าเริ่มต้น ไฟล์เหล่านั้นมักมี cloud token รหัสผ่านฐานข้อมูล และการตั้งค่าการ deploy
ความเสี่ยงไม่ได้มาจากการใช้งานที่ประมาท แต่มาจากการตั้งค่าเริ่มต้น ทุกเซสชันเขียนโค้ดด้วย AI ที่แตะไฟล์ config อาจส่งไฟล์เหล่านั้นไปยังเซิร์ฟเวอร์ของ Anthropic หรือ OpenAI
ความตั้งใจของนักพัฒนาไม่มีปัญหา พวกเขาขอให้ AI แก้ไข database query Query มี connection string AI เห็นมัน นั่นคือการรั่วไหล มันเป็นผลข้างเคียงของงานปกติ กฎนโยบายเพียงอย่างเดียวไม่สามารถหยุดมันได้อย่างน่าเชื่อถือ
นั่นคือเหตุผลที่การใช้งาน tooling ของ Model Context Protocol เพิ่มขึ้น 340% ในสภาพแวดล้อมองค์กรใน Q4 2025 ทีมต้องการการแก้ไขทางเทคนิค เอกสารนโยบายใหม่ไม่เพียงพอ
ผลกระทบ 12 ล้านดอลลาร์
บริษัทด้านบริการการเงินแห่งหนึ่งสูญเสียการควบคุมอัลกอริทึมการซื้อขายที่เป็นกรรมสิทธิ์ อัลกอริทึมถูกส่งไปยังเซิร์ฟเวอร์ของ AI assistant ระหว่างเซสชันตรวจสอบโค้ด
ต้นทุนโดยประมาณ: 12 ล้านดอลลาร์ (IBM Cost of Data Breach 2025 สำหรับองค์กรที่มีพนักงาน >10,000 คน) บริษัทไม่สามารถเรียกข้อมูลกลับมาได้ ต้องตรวจสอบทุกไฟล์ที่ส่งออกไป ต้องจ้างที่ปรึกษากฎหมายสำหรับความเสี่ยงด้านความลับทางการค้า และต้องดำเนินการตรวจสอบความเสียหายทางการแข่งขัน
นั่นคือกรณีเลวร้ายที่สุด กรณีทั่วไปเล็กกว่าแต่สะสมได้รวดเร็ว API key ต้องหมุนเวียนหลังจากปรากฏในบันทึกแชท AI รหัสผ่านฐานข้อมูลถูกเปลี่ยนหลังจากปรากฏในบันทึกเครื่องมือ OAuth token ถูกเพิกถอนหลังจากการบันทึกหน้าจอจับภาพมัน แต่ละขั้นตอนใช้เวลาพนักงาน ต้นทุนนั้นมีจริงและไม่ค่อยมีการติดตาม
วิธีการทำงานของชั้น Anonymization
Model Context Protocol (MCP) เพิ่มชั้นระหว่าง AI client และ AI model API ทุก prompt ผ่านเครื่องมือ anonymize ก่อนที่จะถึงโมเดล
ไม่มีการป้องกัน: นักพัฒนาเขียนสคริปต์ migration มี connection string: postgres://admin:password@host:5432/db โมเดล AI ได้รับสตริงนั้นตามที่เป็น
มีชั้น anonymization: เครื่องมือตรวจพบสตริง แทนที่ด้วย token — [DB_CONN_1] โมเดลเห็นโครงสร้างและตรรกะของสคริปต์ ข้อมูลประจำตัวอยู่ในเครื่องท้องถิ่น
ตัวเลือกการเข้ารหัสแบบย้อนกลับไปไกลกว่านั้น รหัสลูกค้าและรหัสสินค้าถูกเข้ารหัสและแทนที่ด้วย token แบบ deterministic AI ส่งคืนการตอบสนองที่ใช้ token เหล่านั้น เซิร์ฟเวอร์ถอดรหัสการตอบสนองและแทน token กลับด้วยค่าจริง นักพัฒนาอ่านตัวระบุจริง โมเดล AI ไม่เคยเห็นพวกมัน
การตั้งค่าและประสบการณ์ผู้ใช้
สำหรับทีมพัฒนา การตั้งค่าเป็นงานครั้งเดียว Cursor และ Claude Code ถูกกำหนดค่าให้เส้นทางผ่านเซิร์ฟเวอร์ proxy ท้องถิ่น การกำหนดค่าเซิร์ฟเวอร์กำหนดประเภทเอนทิตีที่จะสกัดกั้น:
- API key
- Database connection string
- Auth token
- ข้อมูลประจำตัว AWS, Azure และ GCP
- Header ของ private key
ทีมสามารถเพิ่มรูปแบบแบบกำหนดเองสำหรับชื่อบริการภายในหรือรูปแบบตัวระบุที่เป็นกรรมสิทธิ์
จากมุมมองของนักพัฒนา ไม่มีอะไรเปลี่ยนแปลง การทำ autocomplete การตรวจสอบโค้ด การช่วยเหลือ debug และการสร้างเอกสารทำงานเหมือนเดิม proxy ทำงานอย่างเงียบๆ ในพื้นหลัง
การวิเคราะห์ปี 2025 ของ Checkpoint Research ระบุการเปิดเผยข้อมูลประจำตัวของนักพัฒนาเป็นความเสี่ยงที่มีผลกระทบสูงที่สุดในการปรับใช้เครื่องมือเขียนโค้ด AI นั่นคือปัญหาที่แน่ชัดที่สถาปัตยกรรมนี้แก้ไข เป็นการแก้ไขทางเทคนิค ไม่ใช่การเตือนนโยบาย
เรียนรู้เพิ่มเติมใน ภาพรวมความปลอดภัย และ เอกสารการปฏิบัติตาม ของเรา ดูเพิ่มเติมที่ คู่มือการตรวจจับเอนทิตี สำหรับรายการประเภทข้อมูลที่ถูกสกัดกั้นทั้งหมด