Проблема відтворюваності ML
ML моделі часто неповторюваність через:
- Різні версії бібліотек
- Різні порядки обробки даних
- Різні random seeds
- Різні налаштування приватності
Стандартні preset для ML
Preset визначає:
{
"version": "1.0",
"libraries": {
"numpy": "1.24.0",
"pandas": "2.0.0",
"tensorflow": "2.12.0"
},
"processing": {
"normalization": "z-score",
"encoding": "one-hot",
"splitting": "80-20"
},
"privacy": {
"differential_privacy": true,
"epsilon": 1.0,
"noise": "laplace"
}
}
Преимущество presets
- Відтворюваність — інші можуть повторити експеримент
- Прозорість — чітко зафіксовано, що було зроблено
- Безпека — відомі параметри приватності
- Масштабування — легко запустити на більших даних
Контрольний список для ML команди
- ☐ Створити standard preset
- ☐ Версіонувати всі залежності
- ☐ Документувати обробку
- ☐ Встановити диференційну приватність
- ☐ Тестувати відтворюваність