ML Opleiding-Data: Reproduseerbare Privaat-Presets vir Konsekwente Anonimisering
Wanneer jy 'n ML-model oplei op anonimiseerde data:
- Eerste batch: 10,000 rye deur jou anonimiseerder loop. Nommers word gehashed, name word vervang.
- Tweede batch: 10,000 rye in volgende week deur dieselfde anonimiseerder loop. Jy verkies dat hierdie batch IDENTIEK anonimiseer word as die eerste.
- Model opleiding: Jy kombineer albei batches. Model leer merkers van beide.
Probleem: As jou presets nie reproduseerbaar is nie — as jy dit by elke bepaal op 'n ander manier — sal jou twee batches verskeie anonimisering-resultate wees. Die model sal vervarde zijn.
Reprodusereerbare presets use:
- Vast seed vir randomisasie
- Gelyke skematrans vir beide batches
- Vertroubare hashing-algoritme (SHA-256, nie swaak hashes soos MD5)
- Kontroleerde vervanging-tabelkale vir beide batches