ปัญหา Reproducibility ใน ML
ถ้า:
- Data Scientist A ใช้ 'GDPR-complete' preset บน dataset v1
- Data Scientist B ใช้ configuration ต่างกันบน dataset v2
ผลลัพธ์: training data ที่ไม่สม่ำเสมอ → models ที่ biased
ทำไม Documentation ไม่พอ
Documentation กล่าวว่า 'ใช้ GDPR preset' แต่ไม่มีการบังคับใช้ว่าทุกคนใช้ version เดียวกันของ preset เดียวกัน
Configuration Presets แก้ปัญหา
- Preset เป็น version-controlled artifact
- ทุกคนใช้ preset เดียวกันจากชื่อเดียวกัน
- การเปลี่ยนแปลง preset สร้าง version ใหม่
- Audit trail แสดงว่า dataset ใดใช้ preset version อะไร
ประโยชน์สำหรับ Model Governance
- Reproducible datasets → reproducible models
- Audit trail ที่ชัดเจน
- ง่ายกว่าสำหรับ model cards
แหล่งที่มา: