anonym.legal
กลับไปที่บล็อกความปลอดภัยของ AI

โค้ด ทดสอบ และข้อมูลลูกค้า: ทีมพัฒนาส่ง PII...

ชุดข้อมูลทดสอบที่มีบันทึกลูกค้าจริง ไฟล์บันทึกที่มีข้อมูลการผลิตสำหรับการดีบัก GitHub พบความลับ 39 ล้านรายการที่รั่วไหลในปี 2024...

April 21, 20268 อ่านประมาณ
AI coding assistantproduction PIIdeveloper securityMCP ServerGitHub Copilot

ปัญหา PII ในสภาพแวดล้อมการพัฒนา

ทีมพัฒนาซอฟต์แวร์อยู่ในกลุ่มผู้เปิดเผย PII โดยไม่ตั้งใจบ่อยที่สุด ไม่ใช่ผ่านการละเมิดระบบ แต่ผ่านเวิร์กโฟลว์ประจำวันของการพัฒนาซอฟต์แวร์

ปัญหา: ข้อมูลส่วนตัวจากระบบการผลิตมักเข้าสู่สภาพแวดล้อมการพัฒนา และจากที่นั่นไปยังผู้ช่วย AI สำหรับการเขียนโค้ด

การวิจัยความปลอดภัยของ GitHub ปี 2025 พบ:

  • ความลับ 39 ล้าน รายการถูกเปิดเผยใน commits สาธารณะในปี 2024
  • 68% ของการรั่วไหลของความลับที่ตรวจพบมาจาก repositories ส่วนตัว (พบในการตรวจสอบ)
  • ข้อมูลรับรองฐานข้อมูลและ API keys คิดเป็น 35% ของความลับที่เปิดเผย

เส้นทาง PII จากการผลิตสู่ AI

เส้นทาง 1: ชุดข้อมูลทดสอบ นักพัฒนาที่สร้างการทดสอบหน่วยสำหรับโค้ดการประมวลผลข้อมูลมักใช้ข้อมูลที่ "สมจริง" ซึ่งดึงมาจากการส่งออกการผลิต:

  • ฐานข้อมูลลูกค้าใช้สำหรับ fixtures การทดสอบ
  • ไฟล์ CSV มีชื่อ/อีเมล/หมายเลขโทรศัพท์ของลูกค้าจริง
  • สิ่งเหล่านี้ถูกส่งไปยัง Copilot, Claude, หรือ ChatGPT เพื่อช่วย debug

เส้นทาง 2: ไฟล์บันทึก การแก้ไขบั๊กในการผลิตมักต้องการไฟล์บันทึก ซึ่งมักมี:

  • ที่อยู่ IP ของผู้ใช้ (ข้อมูลส่วนตัวภายใต้ GDPR)
  • ชื่อผู้ใช้และ session IDs
  • ข้อมูล payload คำขอรวมถึง PII ที่ผู้ใช้ส่ง

เส้นทาง 3: ข้อผิดพลาด stack traces Stack traces ใน error messages มักมี:

  • ค่าพารามิเตอร์ที่มี PII
  • Query string ที่มีตัวระบุผู้ใช้
  • เนื้อหาคำขอ HTTP บางส่วน

แนวทางการบรรเทา

สำหรับชุดข้อมูลทดสอบ:

  • สร้าง fixtures ทดสอบสังเคราะห์โดยใช้ไลบรารีสร้างข้อมูลสุ่ม (Faker.js, Python Faker)
  • ทำให้ข้อมูลส่วนตัวไม่ระบุตัวตนในการส่งออกการผลิตก่อนใช้ในการทดสอบ
  • อย่าใช้ไฟล์ข้อมูลจริงใน test fixtures ที่ commit ไว้ใน VCS

สำหรับไฟล์บันทึก:

  • กำหนดค่า log scrubbing ที่ระดับ middleware (ลบ PII จาก logs)
  • ใช้ structured logging ที่มีฟิลด์ที่กำหนดไว้แทนการบันทึก payload ดิบ
  • ทำให้ IP addresses ไม่ระบุตัวตนใน access logs ก่อนเก็บถาวร

สำหรับการใช้งาน AI coding assistant:

  • ใช้เครื่องมือ PII interception ก่อนส่งชิ้นส่วนโค้ดไปยัง AI assistants
  • กำหนดนโยบายทีมสำหรับการตรวจสอบ prompts สำหรับข้อมูลจริงก่อนส่ง
  • ใช้ข้อมูลสังเคราะห์อย่างสม่ำเสมอสำหรับตัวอย่างที่แชร์กับ AI assistants

แหล่งที่มา:

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.