Satu Skrip Saja Tidak Cukup
Setiap tim data science pernah menulis sesuatu seperti ini:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Ini mengganti alamat email. Hanya itu yang dilakukannya. Dataset masih menyimpan nama, nomor telepon, dan ID medis. Dan tetap akan gagal audit GDPR.
Kesenjangan antara "saya sudah mengaburkan emailnya" dan "dataset ini patuh GDPR" sangatlah besar. Tim sering meremehkannya.
Mengapa GDPR Membatasi Penggunaan Pelatihan ML
GDPR Pasal 5(1)(b) adalah aturan kuncinya. Disebut prinsip pembatasan tujuan. Catatan pribadi hanya boleh digunakan untuk tujuan saat data itu dikumpulkan.
Data pesanan pelanggan dikumpulkan untuk pemenuhan pesanan. Bukan untuk melatih model rekomendasi. Rekam medis dikumpulkan untuk tujuan pengobatan. Bukan untuk melatih model prediksi rawat inap kembali. Jawaban survei dikumpulkan untuk umpan balik produk. Bukan untuk melatih pengklasifikasi sentimen.
Untuk menggunakan catatan tersebut dalam pelatihan ML, sebuah tim membutuhkan salah satu dari tiga hal berikut:
- Persetujuan eksplisit dari setiap orang untuk tujuan ML — sulit didapat, sering kali mustahil secara retroaktif
- Penilaian kepentingan sah yang menunjukkan bahwa penggunaan ML bersifat kompatibel — tidak pasti secara hukum, bergantung pada DPA
- Anonimisasi — mengganti atau menghapus detail pribadi sehingga dataset tidak lagi bersifat personal menurut GDPR
Anonimisasi yang tepat memberikan kepastian hukum paling tinggi. Tantangannya adalah melakukannya dengan benar setiap saat.
Masalah dengan Skrip Satu-Kali
Tim yang menulis skrip Python baru untuk setiap dataset menciptakan masalah yang berlipat ganda.
Cakupan tidak lengkap. Skrip yang dibuat untuk satu skema akan melewatkan kolom baru. Kolom catatan klinis yang ditambahkan enam bulan lalu? Tidak ada di regex. Kolom nama tengah? Skrip hanya menangani pola nama depan dan belakang.
Tidak konsisten. Dataset A diproses dengan script_v1. Dataset B menggunakan script_v3. Dataset C diproses oleh anggota tim yang berbeda. Dataset gabungan untuk pelatihan menggunakan tiga metode berbeda. DPO tidak bisa mensertifikasinya.
Tidak ada jejak audit. Skrip berjalan. Apa yang diubahnya? Entitas mana yang ditemukan? Tanpa catatan pemrosesan, kepatuhan menjadi mustahil. Ketika auditor DPA bertanya "bagaimana Anda tahu set pelatihan ini bersih?", jawaban "kami menjalankan skrip Python" tidak cukup.
Penurunan performa model. Pola regex yang bekerja di tahun 2023 melewatkan format pengidentifikasi baru dari tahun 2024. Skrip tidak memperbarui dirinya sendiri.
Panduan Pemrosesan Batch
Sebuah tim AI layanan kesehatan perlu mengaburkan 8.000 catatan pasien. Tim AS memerlukan akses dari kantor EU. Schrems II berlaku — catatan yang berasal dari EU tidak bisa masuk ke infrastruktur AS tanpa perlindungan yang tepat.
Cara lama: Seorang insinyur data menulis skrip khusus. Dua hingga tiga hari pengembangan. Satu hingga dua hari tinjauan DPO. Satu hari iterasi. Total: empat hingga enam hari. Proyek ML pun tertunda.
Cara pemrosesan batch:
- Ekspor 8.000 catatan sebagai CSV
- Unggah ke pemrosesan batch
- Tetapkan jenis entitas: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Pilih metode: Replace (mengganti dengan nilai sintetis yang realistis untuk mempertahankan struktur)
- Proses: 45 menit untuk 8.000 catatan
- Unduh CSV yang sudah bersih
- DPO meninjau metadata pemrosesan — jumlah entitas per catatan, metode yang diterapkan: 2 jam
- DPO menyetujui. Transfer dilanjutkan.
Total waktu: 45 menit ditambah 2 jam tinjauan DPO. Bukan empat hingga enam hari.
Lihat panduan pelatihan EU AI Act untuk cara langkah-langkah yang sama memenuhi kewajiban Pasal 10.
Replace vs. Redact untuk Penggunaan ML
Metode anonimisasi memengaruhi kualitas model.
Redact mengganti PII dengan token seperti [REDACTED]. Ini efektif untuk model deteksi PII. Untuk tugas lain — sentimen, klasifikasi, rekomendasi — ini merugikan. Model belajar bahwa [REDACTED] adalah token khusus. Model tidak bisa belajar dari distribusi alami nama dan nilai.
Replace menukar "John Smith" dengan "David Chen." Menukar "jsmith@company.com" dengan "dchen@synthetic.com." Strukturnya tetap utuh. Penempatan entitas, pola ko-okurens, aliran kalimat — semua terjaga. Model belajar dari konteks yang realistis.
Untuk set pelatihan ML, Replace adalah pilihan yang tepat. Model tidak mempelajari nilai palsu. Model mempelajari pola di sekitarnya. Itulah yang penting.
Schrems II dan Transfer Data Lintas Batas
Putusan Schrems II (CJEU, 2020) membatalkan EU-US Privacy Shield. Catatan yang berasal dari EU tidak bisa masuk ke infrastruktur ML AS — AWS US-East, GCP US-Central — tanpa perlindungan transfer yang tepat.
Tiga perlindungan utama adalah:
- Klausul Kontraktual Standar dengan Penilaian Dampak Transfer
- Aturan Perusahaan Mengikat untuk transfer di dalam grup perusahaan
- Derogasi untuk catatan yang dianonimkan — file yang dianonimkan dengan benar tidak lagi bersifat personal menurut GDPR dan dikecualikan dari aturan transfer
Bagi tim yang menggunakan infrastruktur AS dengan set yang berasal dari EU, anonimisasi yang tepat menghilangkan masalah Schrems II. Dataset yang bersih bukan data pribadi. Dataset tersebut bisa berpindah secara bebas.
Ini adalah salah satu manfaat praktis terkuat dari anonimisasi batch. Ini bukan sekadar memenuhi GDPR. Ini menghilangkan hambatan lintas batas sepenuhnya.
Untuk informasi lebih lanjut tentang pembatasan transfer, lihat panduan pembatasan tujuan GDPR.
Apa yang Harus Diberikan kepada DPO
Saat mengajukan set pelatihan yang sudah bersih untuk persetujuan DPO, sertakan lima item berikut:
- Deskripsi sumber. Apa dataset aslinya? Apa tujuan pengumpulannya? Kategori personal apa yang dikandungnya?
- Konfigurasi anonimisasi. Jenis entitas mana yang dideteksi dan diganti? Metode apa yang diterapkan?
- Metadata pemrosesan. Jumlah entitas per catatan, skor kepercayaan, total catatan yang diproses.
- Penilaian risiko residual. Berapa kemungkinan seseorang dapat diidentifikasi kembali? Untuk anonimisasi metode Replace dengan 285+ jenis entitas pada teks terstruktur, probabilitas ini sangat rendah.
- Tujuan yang dimaksud. Model apa yang akan dilatih? Apa tujuan pelatihannya?
Pemrosesan batch menyediakan item 2 dan 3 secara otomatis. Item 1, 4, dan 5 berasal dari ilmuwan data.
Lihat batch API anonym.legal untuk cara metadata pemrosesan dikembalikan dengan setiap pekerjaan.
Apa yang Anda Dapatkan
Set ML yang patuh GDPR dapat dicapai tanpa skrip khusus, tanpa penundaan berhari-hari, dan tanpa kehilangan kualitas model.
Metode Replace mempertahankan properti bahasa alami yang penting untuk pelatihan NLP. Ia menghilangkan detail pribadi yang menciptakan risiko GDPR.
45 menit pemrosesan batch adalah perbedaan antara tinjauan kepatuhan yang tertunda dan persetujuan DPO yang langsung.