Privasi yang Dapat Direproduksi: Mengapa Tim ML Memerlukan Preset, Bukan Hanya Dokumentasi
DPO menyetujui rencana anonimisasi. Mencakup empat item: nama, email, nomor telepon, dan tanggal lahir. Metodenya adalah Replace. Rencananya empat halaman dan tersimpan di wiki kepatuhan.
Dua belas ilmuwan data membacanya saat kickoff. Masing-masing menyiapkan alat sendiri. Beberapa menambahkan ID nasional. Beberapa menambahkan alamat IP. Beberapa beralih ke Redact. Tiga bulan kemudian, set tidak konsisten.
CNIL memeriksa beberapa perusahaan AI pada 2024. Masalahnya: penggunaan detail pribadi yang tidak tepat dalam set model. Mereka tidak hanya menanyakan apakah anonimisasi terjadi. Mereka menanyakan seberapa konsisten penerapannya.
Dokumentasi diperlukan. Tapi tidak cukup. Solusinya adalah preset.
Mengapa Set Model ML Memerlukan Konfigurasi Sendiri
Membangun set model memiliki kebutuhan unik. Anonimisasi dokumen umum tidak memilikinya.
Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token itu sebagai penanda posisi nama. Ini merusak model. Replace menukar "John Smith" dengan "David Chen." Model melihat pola nama nyata. Tidak melihat token masker.
Proses yang sama untuk semua catatan. Set di mana 70% nama diganti dan 30% adalah [REDACTED] mengirim sinyal campuran. Setiap catatan harus melalui langkah yang sama.
Daftar entitas yang sama. Jika set berisi detail kesehatan, menghapus nama tetapi membiarkan tanggal lahir di beberapa catatan menciptakan celah. Semua dua belas ilmuwan data harus menghapus jenis yang sama.
Tidak ada penghapusan berlebihan. Mengambil tanggal yang merupakan cap waktu — bukan tanggal lahir — mengurangi kualitas set tanpa keuntungan kepatuhan. Preset yang disetujui menyatakan dengan tepat item mana yang harus dihapus.
Output yang dapat diulang. Jika set harus dijalankan ulang — misalnya, setelah jenis entitas yang terlewat ditemukan — preset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.
Masalah Dua Belas Ilmuwan Data
Tim ML fintech di Eropa menggunakan set dari log pelanggan. DPO menyetujui tujuan — deteksi penipuan — dengan satu aturan: semua nama pelanggan, email, nomor telepon, dan ID pembayaran harus diganti sebelum pekerjaan model dimulai.
Tanpa preset:
- Orang 1 menghapus nama, email, dan nomor telepon — tetapi melewatkan ID pembayaran
- Orang 2 menyertakan ID pembayaran tetapi menggunakan Redact, bukan Replace
- Orang 3 mengikuti dokumen rencana dengan tepat
- Orang 4–12 bervariasi
Set yang digabungkan sebagian tidak patuh dan sebagian diproses berlebihan. DPO tidak dapat mengesahkannya.
Dengan preset yang disetujui DPO:
- DPO membuat "ML Dev — Deteksi Penipuan" dengan jenis entitas yang tepat dan metode Replace
- Preset diberikan ke semua dua belas orang dengan satu aturan: gunakan ini untuk semua pekerjaan set
- Tidak ada yang dapat mengubah preset tanpa persetujuan DPO
Setiap orang sekarang menghasilkan output yang sama. Set yang digabungkan konsisten. Audit AI tahunan lulus dengan nol temuan. Tahun sebelumnya memiliki tiga temuan dari pekerjaan set yang tidak konsisten.
GDPR dan AI Act
Diperbarui untuk 2026
UU AI EU berlaku penuh pada Agustus 2024. Ini menambahkan aturan untuk sistem AI yang menggunakan detail pribadi untuk pekerjaan model. Sistem AI berisiko tinggi harus mendokumentasikan set mereka, termasuk anonimisasi apa yang diterapkan.
Pasal 5(1)(b) GDPR — aturan batas tujuan — memblokir penggunaan detail pribadi tanpa dasar hukum yang jelas. Kasus CNIL 2024 berfokus pada celah ini: detail yang dikumpulkan untuk satu layanan digunakan untuk pekerjaan model tanpa dasar yang valid atau anonimisasi.
Preset membantu memenuhi kedua set aturan:
- Nama dan konfigurasi preset: metode yang didokumentasikan
- Log pemrosesan: bukti metode diterapkan
- Persetujuan DPO: tanda tangan yang tercatat pada konfigurasi
Ini menciptakan jejak audit yang diwajibkan kedua undang-undang. Untuk kewajiban Pasal 10 secara detail, lihat panduan data pelatihan UU AI EU.
Konfigurasi Preset untuk Set Model NLP
Jenis yang disertakan dalam sebagian besar set model NLP:
- PERSON — Replace dengan nama serupa
- EMAIL_ADDRESS — Replace dengan alamat sintetis
- PHONE_NUMBER — Replace dengan nomor sintetis
- CREDIT_CARD / IBAN — Replace atau Redact
- LOCATION — Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
- DATE_OF_BIRTH — Redact; pengelompokan usia sering diperlukan
Jenis yang sering dikecualikan:
- Tanggal umum — cap waktu membantu model temporal
- Nama organisasi — membantu model entitas bernama
- URL — membantu model tautan dan referensi
Pemimpin ML dan DPO menetapkan aturan ini dalam preset yang disetujui. Anggota tim menerapkannya. Mereka tidak membuat pilihan konfigurasi.
Preset sebagai Memori Institusional
Sebelum preset. Konfigurasi entitas yang tepat ada di kepala tiga ilmuwan data. Mereka telah melalui tinjauan kepatuhan. Dua pergi di Q3. Pengetahuan ikut pergi bersama mereka.
Setelah preset. Konfigurasi ada dalam "ML Dev — Catatan Pelanggan v2.1." Log versi menunjukkan kapan dibuat, siapa yang menyetujui, dan apa yang berubah dari v2.0. Anggota tim baru menggunakan preset dan mendapatkan semua pengetahuan yang dibangun di dalamnya.
Versi 2.1 menambahkan deteksi IBAN setelah tinjauan menemukan kekurangannya. Versi 2.0 disetujui Februari 2025. Log lengkap.
Untuk cara log pemrosesan dan alur tinjauan DPO bekerja, lihat panduan anonimisasi ML pelatihan GDPR.
Preset vs. Pola CNIL
Kasus AI CNIL 2024 menetapkan pola yang jelas. Mereka menanyakan tidak hanya apa yang dihapus tetapi bagaimana pengelolaannya. Preset bersama dengan catatan persetujuan DPO dan log pemrosesan menjawab ini secara langsung.
Konfigurasi ad-hoc tidak. Celah yang sama ada dalam kasus DPA EU lain yang mengikuti logika CNIL. Untuk lebih lanjut tentang pendekatan AI CNIL, lihat panduan kepatuhan AI GDPR CNIL.
Kesimpulan
Dokumentasi memberi tahu anggota tim apa yang harus dilakukan. Preset memudahkan — dan memaksa — melakukannya dengan cara yang sama setiap kali.
Untuk set model ML, konsistensi adalah kebutuhan hukum sekaligus teknis. Preset memenuhi keduanya sekaligus.
DPA yang melihat praktik AI menginginkan bukti anonimisasi yang seragam. Preset yang diterapkan dengan cara yang sama di seluruh pekerjaan set adalah bukti terjelas yang dapat Anda berikan.