Satu Skrip Saja Tidak Cukup

Setiap tim data science pernah menulis sesuatu seperti ini:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Ini mengganti alamat email. Hanya itu yang dilakukannya. Dataset masih menyimpan nama, nomor telepon, dan ID medis. Dan tetap akan gagal audit GDPR.

Kesenjangan antara "saya sudah mengaburkan emailnya" dan "dataset ini patuh GDPR" sangatlah besar. Tim sering meremehkannya.

GDPR Pasal 5(1)(b) adalah aturan kuncinya. Disebut prinsip pembatasan tujuan. Catatan pribadi hanya boleh digunakan untuk tujuan saat data itu dikumpulkan.

Data pesanan pelanggan dikumpulkan untuk pemenuhan pesanan. Bukan untuk melatih model rekomendasi. Rekam medis dikumpulkan untuk tujuan pengobatan. Bukan untuk melatih model prediksi rawat inap kembali. Jawaban survei dikumpulkan untuk umpan balik produk. Bukan untuk melatih pengklasifikasi sentimen.

Untuk menggunakan catatan tersebut dalam pelatihan ML, sebuah tim membutuhkan salah satu dari tiga hal berikut:

Persetujuan eksplisit dari setiap orang untuk tujuan ML — sulit didapat, sering kali mustahil secara retroaktif
Penilaian kepentingan sah yang menunjukkan bahwa penggunaan ML bersifat kompatibel — tidak pasti secara hukum, bergantung pada DPA
Anonimisasi — mengganti atau menghapus detail pribadi sehingga dataset tidak lagi bersifat personal menurut GDPR

Anonimisasi yang tepat memberikan kepastian hukum paling tinggi. Tantangannya adalah melakukannya dengan benar setiap saat.

Masalah dengan Skrip Satu-Kali

Tim yang menulis skrip Python baru untuk setiap dataset menciptakan masalah yang berlipat ganda.

Cakupan tidak lengkap. Skrip yang dibuat untuk satu skema akan melewatkan kolom baru. Kolom catatan klinis yang ditambahkan enam bulan lalu? Tidak ada di regex. Kolom nama tengah? Skrip hanya menangani pola nama depan dan belakang.

Tidak konsisten. Dataset A diproses dengan script_v1. Dataset B menggunakan script_v3. Dataset C diproses oleh anggota tim yang berbeda. Dataset gabungan untuk pelatihan menggunakan tiga metode berbeda. DPO tidak bisa mensertifikasinya.

Tidak ada jejak audit. Skrip berjalan. Apa yang diubahnya? Entitas mana yang ditemukan? Tanpa catatan pemrosesan, kepatuhan menjadi mustahil. Ketika auditor DPA bertanya "bagaimana Anda tahu set pelatihan ini bersih?", jawaban "kami menjalankan skrip Python" tidak cukup.

Penurunan performa model. Pola regex yang bekerja di tahun 2023 melewatkan format pengidentifikasi baru dari tahun 2024. Skrip tidak memperbarui dirinya sendiri.

Panduan Pemrosesan Batch

Sebuah tim AI layanan kesehatan perlu mengaburkan 8.000 catatan pasien. Tim AS memerlukan akses dari kantor EU. Schrems II berlaku — catatan yang berasal dari EU tidak bisa masuk ke infrastruktur AS tanpa perlindungan yang tepat.

Cara lama: Seorang insinyur data menulis skrip khusus. Dua hingga tiga hari pengembangan. Satu hingga dua hari tinjauan DPO. Satu hari iterasi. Total: empat hingga enam hari. Proyek ML pun tertunda.

Cara pemrosesan batch:

Ekspor 8.000 catatan sebagai CSV
Unggah ke pemrosesan batch
Tetapkan jenis entitas: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Pilih metode: Replace (mengganti dengan nilai sintetis yang realistis untuk mempertahankan struktur)
Proses: 45 menit untuk 8.000 catatan
Unduh CSV yang sudah bersih
DPO meninjau metadata pemrosesan — jumlah entitas per catatan, metode yang diterapkan: 2 jam
DPO menyetujui. Transfer dilanjutkan.

Total waktu: 45 menit ditambah 2 jam tinjauan DPO. Bukan empat hingga enam hari.

Lihat panduan pelatihan EU AI Act untuk cara langkah-langkah yang sama memenuhi kewajiban Pasal 10.

Replace vs. Redact untuk Penggunaan ML

Metode anonimisasi memengaruhi kualitas model.

Redact mengganti PII dengan token seperti [REDACTED]. Ini efektif untuk model deteksi PII. Untuk tugas lain — sentimen, klasifikasi, rekomendasi — ini merugikan. Model belajar bahwa [REDACTED] adalah token khusus. Model tidak bisa belajar dari distribusi alami nama dan nilai.

Replace menukar "John Smith" dengan "David Chen." Menukar "jsmith@company.com" dengan "dchen@synthetic.com." Strukturnya tetap utuh. Penempatan entitas, pola ko-okurens, aliran kalimat — semua terjaga. Model belajar dari konteks yang realistis.

Untuk set pelatihan ML, Replace adalah pilihan yang tepat. Model tidak mempelajari nilai palsu. Model mempelajari pola di sekitarnya. Itulah yang penting.

Schrems II dan Transfer Data Lintas Batas

Putusan Schrems II (CJEU, 2020) membatalkan EU-US Privacy Shield. Catatan yang berasal dari EU tidak bisa masuk ke infrastruktur ML AS — AWS US-East, GCP US-Central — tanpa perlindungan transfer yang tepat.

Tiga perlindungan utama adalah:

Klausul Kontraktual Standar dengan Penilaian Dampak Transfer
Aturan Perusahaan Mengikat untuk transfer di dalam grup perusahaan
Derogasi untuk catatan yang dianonimkan — file yang dianonimkan dengan benar tidak lagi bersifat personal menurut GDPR dan dikecualikan dari aturan transfer

Bagi tim yang menggunakan infrastruktur AS dengan set yang berasal dari EU, anonimisasi yang tepat menghilangkan masalah Schrems II. Dataset yang bersih bukan data pribadi. Dataset tersebut bisa berpindah secara bebas.

Ini adalah salah satu manfaat praktis terkuat dari anonimisasi batch. Ini bukan sekadar memenuhi GDPR. Ini menghilangkan hambatan lintas batas sepenuhnya.

Untuk informasi lebih lanjut tentang pembatasan transfer, lihat panduan pembatasan tujuan GDPR.

Apa yang Harus Diberikan kepada DPO

Saat mengajukan set pelatihan yang sudah bersih untuk persetujuan DPO, sertakan lima item berikut:

Deskripsi sumber. Apa dataset aslinya? Apa tujuan pengumpulannya? Kategori personal apa yang dikandungnya?
Konfigurasi anonimisasi. Jenis entitas mana yang dideteksi dan diganti? Metode apa yang diterapkan?
Metadata pemrosesan. Jumlah entitas per catatan, skor kepercayaan, total catatan yang diproses.
Penilaian risiko residual. Berapa kemungkinan seseorang dapat diidentifikasi kembali? Untuk anonimisasi metode Replace dengan 285+ jenis entitas pada teks terstruktur, probabilitas ini sangat rendah.
Tujuan yang dimaksud. Model apa yang akan dilatih? Apa tujuan pelatihannya?

Pemrosesan batch menyediakan item 2 dan 3 secara otomatis. Item 1, 4, dan 5 berasal dari ilmuwan data.

Lihat batch API anonym.legal untuk cara metadata pemrosesan dikembalikan dengan setiap pekerjaan.

Apa yang Anda Dapatkan

Set ML yang patuh GDPR dapat dicapai tanpa skrip khusus, tanpa penundaan berhari-hari, dan tanpa kehilangan kualitas model.

Metode Replace mempertahankan properti bahasa alami yang penting untuk pelatihan NLP. Ia menghilangkan detail pribadi yang menciptakan risiko GDPR.

45 menit pemrosesan batch adalah perbedaan antara tinjauan kepatuhan yang tertunda dan persetujuan DPO yang langsung.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

Mulai Uji Coba Gratis Lihat Fitur

Anonimisasi Data Pelatihan ML yang Patuh GDPR

Satu Skrip Saja Tidak Cukup

Masalah dengan Skrip Satu-Kali

Panduan Pemrosesan Batch

Replace vs. Redact untuk Penggunaan ML

Schrems II dan Transfer Data Lintas Batas

Apa yang Harus Diberikan kepada DPO

Apa yang Anda Dapatkan

Sumber

Artikel Terkait

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Siap untuk melindungi data Anda?

Anonimisasi Data Pelatihan ML yang Patuh GDPR

Satu Skrip Saja Tidak Cukup

Mengapa GDPR Membatasi Penggunaan Pelatihan ML

Masalah dengan Skrip Satu-Kali

Panduan Pemrosesan Batch

Replace vs. Redact untuk Penggunaan ML

Schrems II dan Transfer Data Lintas Batas

Apa yang Harus Diberikan kepada DPO

Apa yang Anda Dapatkan

Sumber

Artikel Terkait

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Siap untuk melindungi data Anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow