Privasi yang Dapat Direproduksi: Mengapa Tim ML Memerlukan Preset, Bukan Hanya Dokumentasi

DPO menyetujui rencana anonimisasi. Mencakup empat item: nama, email, nomor telepon, dan tanggal lahir. Metodenya adalah Replace. Rencananya empat halaman dan tersimpan di wiki kepatuhan.

Dua belas ilmuwan data membacanya saat kickoff. Masing-masing menyiapkan alat sendiri. Beberapa menambahkan ID nasional. Beberapa menambahkan alamat IP. Beberapa beralih ke Redact. Tiga bulan kemudian, set tidak konsisten.

CNIL memeriksa beberapa perusahaan AI pada 2024. Masalahnya: penggunaan detail pribadi yang tidak tepat dalam set model. Mereka tidak hanya menanyakan apakah anonimisasi terjadi. Mereka menanyakan seberapa konsisten penerapannya.

Dokumentasi diperlukan. Tapi tidak cukup. Solusinya adalah preset.

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Membangun set model memiliki kebutuhan unik. Anonimisasi dokumen umum tidak memilikinya.

Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token itu sebagai penanda posisi nama. Ini merusak model. Replace menukar "John Smith" dengan "David Chen." Model melihat pola nama nyata. Tidak melihat token masker.

Proses yang sama untuk semua catatan. Set di mana 70% nama diganti dan 30% adalah [REDACTED] mengirim sinyal campuran. Setiap catatan harus melalui langkah yang sama.

Daftar entitas yang sama. Jika set berisi detail kesehatan, menghapus nama tetapi membiarkan tanggal lahir di beberapa catatan menciptakan celah. Semua dua belas ilmuwan data harus menghapus jenis yang sama.

Tidak ada penghapusan berlebihan. Mengambil tanggal yang merupakan cap waktu — bukan tanggal lahir — mengurangi kualitas set tanpa keuntungan kepatuhan. Preset yang disetujui menyatakan dengan tepat item mana yang harus dihapus.

Output yang dapat diulang. Jika set harus dijalankan ulang — misalnya, setelah jenis entitas yang terlewat ditemukan — preset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.

Masalah Dua Belas Ilmuwan Data

Tim ML fintech di Eropa menggunakan set dari log pelanggan. DPO menyetujui tujuan — deteksi penipuan — dengan satu aturan: semua nama pelanggan, email, nomor telepon, dan ID pembayaran harus diganti sebelum pekerjaan model dimulai.

Tanpa preset:

Orang 1 menghapus nama, email, dan nomor telepon — tetapi melewatkan ID pembayaran
Orang 2 menyertakan ID pembayaran tetapi menggunakan Redact, bukan Replace
Orang 3 mengikuti dokumen rencana dengan tepat
Orang 4–12 bervariasi

Set yang digabungkan sebagian tidak patuh dan sebagian diproses berlebihan. DPO tidak dapat mengesahkannya.

Dengan preset yang disetujui DPO:

DPO membuat "ML Dev — Deteksi Penipuan" dengan jenis entitas yang tepat dan metode Replace
Preset diberikan ke semua dua belas orang dengan satu aturan: gunakan ini untuk semua pekerjaan set
Tidak ada yang dapat mengubah preset tanpa persetujuan DPO

Setiap orang sekarang menghasilkan output yang sama. Set yang digabungkan konsisten. Audit AI tahunan lulus dengan nol temuan. Tahun sebelumnya memiliki tiga temuan dari pekerjaan set yang tidak konsisten.

Diperbarui untuk 2026

UU AI EU berlaku penuh pada Agustus 2024. Ini menambahkan aturan untuk sistem AI yang menggunakan detail pribadi untuk pekerjaan model. Sistem AI berisiko tinggi harus mendokumentasikan set mereka, termasuk anonimisasi apa yang diterapkan.

Pasal 5(1)(b) GDPR — aturan batas tujuan — memblokir penggunaan detail pribadi tanpa dasar hukum yang jelas. Kasus CNIL 2024 berfokus pada celah ini: detail yang dikumpulkan untuk satu layanan digunakan untuk pekerjaan model tanpa dasar yang valid atau anonimisasi.

Preset membantu memenuhi kedua set aturan:

Nama dan konfigurasi preset: metode yang didokumentasikan
Log pemrosesan: bukti metode diterapkan
Persetujuan DPO: tanda tangan yang tercatat pada konfigurasi

Ini menciptakan jejak audit yang diwajibkan kedua undang-undang. Untuk kewajiban Pasal 10 secara detail, lihat panduan data pelatihan UU AI EU.

Konfigurasi Preset untuk Set Model NLP

Jenis yang disertakan dalam sebagian besar set model NLP:

PERSON — Replace dengan nama serupa
EMAIL_ADDRESS — Replace dengan alamat sintetis
PHONE_NUMBER — Replace dengan nomor sintetis
CREDIT_CARD / IBAN — Replace atau Redact
LOCATION — Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
DATE_OF_BIRTH — Redact; pengelompokan usia sering diperlukan

Jenis yang sering dikecualikan:

Tanggal umum — cap waktu membantu model temporal
Nama organisasi — membantu model entitas bernama
URL — membantu model tautan dan referensi

Pemimpin ML dan DPO menetapkan aturan ini dalam preset yang disetujui. Anggota tim menerapkannya. Mereka tidak membuat pilihan konfigurasi.

Preset sebagai Memori Institusional

Sebelum preset. Konfigurasi entitas yang tepat ada di kepala tiga ilmuwan data. Mereka telah melalui tinjauan kepatuhan. Dua pergi di Q3. Pengetahuan ikut pergi bersama mereka.

Setelah preset. Konfigurasi ada dalam "ML Dev — Catatan Pelanggan v2.1." Log versi menunjukkan kapan dibuat, siapa yang menyetujui, dan apa yang berubah dari v2.0. Anggota tim baru menggunakan preset dan mendapatkan semua pengetahuan yang dibangun di dalamnya.

Versi 2.1 menambahkan deteksi IBAN setelah tinjauan menemukan kekurangannya. Versi 2.0 disetujui Februari 2025. Log lengkap.

Untuk cara log pemrosesan dan alur tinjauan DPO bekerja, lihat panduan anonimisasi ML pelatihan GDPR.

Preset vs. Pola CNIL

Kasus AI CNIL 2024 menetapkan pola yang jelas. Mereka menanyakan tidak hanya apa yang dihapus tetapi bagaimana pengelolaannya. Preset bersama dengan catatan persetujuan DPO dan log pemrosesan menjawab ini secara langsung.

Konfigurasi ad-hoc tidak. Celah yang sama ada dalam kasus DPA EU lain yang mengikuti logika CNIL. Untuk lebih lanjut tentang pendekatan AI CNIL, lihat panduan kepatuhan AI GDPR CNIL.

Kesimpulan

Dokumentasi memberi tahu anggota tim apa yang harus dilakukan. Preset memudahkan — dan memaksa — melakukannya dengan cara yang sama setiap kali.

Untuk set model ML, konsistensi adalah kebutuhan hukum sekaligus teknis. Preset memenuhi keduanya sekaligus.

DPA yang melihat praktik AI menginginkan bukti anonimisasi yang seragam. Preset yang diterapkan dengan cara yang sama di seluruh pekerjaan set adalah bukti terjelas yang dapat Anda berikan.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

Mulai Uji Coba Gratis Lihat Fitur

Privasi yang Dapat Direproduksi: Preset ML

Privasi yang Dapat Direproduksi: Mengapa Tim ML Memerlukan Preset, Bukan Hanya Dokumentasi

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Masalah Dua Belas Ilmuwan Data

Konfigurasi Preset untuk Set Model NLP

Preset sebagai Memori Institusional

Preset vs. Pola CNIL

Kesimpulan

Sumber

Artikel Terkait

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Siap untuk melindungi data Anda?

Privasi yang Dapat Direproduksi: Preset ML

Privasi yang Dapat Direproduksi: Mengapa Tim ML Memerlukan Preset, Bukan Hanya Dokumentasi

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Masalah Dua Belas Ilmuwan Data

GDPR dan AI Act

Konfigurasi Preset untuk Set Model NLP

Preset sebagai Memori Institusional

Preset vs. Pola CNIL

Kesimpulan

Sumber

Artikel Terkait

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Siap untuk melindungi data Anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow