Satu Skrip Tidak Mencukupi

Setiap pasukan sains data pernah menulis sesuatu seperti ini:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Ini menggantikan alamat e-mel. Itu sahaja yang dilakukannya. Set data masih mengandungi nama, nombor telefon, dan ID perubatan. Ia tetap akan gagal audit GDPR.

Jurang antara "saya telah anonimisasi e-mel" dan "set data ini mematuhi GDPR" adalah besar. Pasukan selalu meremehkannya.

Artikel 5(1)(b) GDPR adalah peraturan utama. Ia dipanggil prinsip pengehadan tujuan. Rekod peribadi hanya boleh digunakan untuk tujuan ia dikumpulkan.

Pesanan pelanggan dikumpulkan untuk pemenuhan pesanan. Bukan untuk melatih model cadangan. Rekod kesihatan dikumpulkan untuk rawatan. Bukan untuk melatih model kemasukan semula. Jawapan tinjauan dikumpulkan untuk maklum balas produk. Bukan untuk melatih pengkelasan sentimen.

Untuk menggunakan rekod tersebut bagi latihan ML, pasukan memerlukan salah satu daripada tiga perkara:

Persetujuan eksplisit daripada setiap orang untuk tujuan ML — sukar diperoleh, sering mustahil secara retroaktif
Penilaian kepentingan sah yang menunjukkan penggunaan ML adalah serasi — tidak pasti dari segi undang-undang, bergantung pada DPA
Anonimisasi — menggantikan atau mengalih keluar butiran peribadi supaya set data tidak lagi bersifat peribadi di bawah GDPR

Anonimisasi yang betul memberikan kepastian undang-undang yang paling tinggi. Cabarannya adalah melakukannya dengan betul setiap masa.

Masalah dengan Skrip Sekali Pakai

Pasukan yang menulis skrip Python baharu untuk setiap set data mencipta masalah yang bertimbun.

Liputan tidak lengkap. Skrip yang dibina untuk satu skema terlepas medan baharu. Lajur nota klinikal yang ditambah enam bulan lalu? Tidak dalam regex. Medan nama tengah? Skrip hanya mengendalikan corak nama pertama dan akhir.

Tiada konsistensi. Set data A diproses dengan script_v1. Set data B menggunakan script_v3. Set data C diproses oleh ahli pasukan yang berbeza. Set latihan yang digabungkan mempunyai tiga kaedah berbeza yang diterapkan. DPO tidak dapat mengesahkannya.

Tiada jejak audit. Skrip telah berjalan. Apa yang diubahnya? Entiti mana yang ditemui? Tanpa rekod pemprosesan, pematuhan adalah mustahil. Apabila pengaudit DPA bertanya "bagaimana anda tahu set latihan ini bersih?", jawapan "kami menjalankan skrip Python" tidak mencukupi.

Hanyutan model. Corak regex yang berfungsi pada 2023 terlepas format pengecam baharu dari 2024. Skrip tidak mengemas kini dirinya sendiri.

Panduan Pemprosesan Kelompok

Pasukan AI penjagaan kesihatan perlu anonimisasi 8,000 rekod pesakit. Pasukan AS memerlukan akses dari pejabat EU. Schrems II terpakai — rekod asal EU tidak boleh pergi ke infrastruktur AS tanpa perlindungan yang betul.

Laluan tradisional: Jurutera data menulis skrip tersuai. Dua hingga tiga hari pembangunan. Satu hingga dua hari semakan DPO. Satu hari iterasi. Jumlah: empat hingga enam hari. Projek ML tertangguh.

Laluan pemprosesan kelompok:

Eksport 8,000 rekod sebagai CSV
Muat naik ke pemprosesan kelompok
Tetapkan jenis entiti: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Pilih kaedah: Replace (menggantikan nilai sintetik yang realistik untuk mengekalkan struktur)
Proses: 45 minit untuk 8,000 rekod
Muat turun CSV yang bersih
DPO menyemak metadata pemprosesan — kiraan entiti setiap rekod, kaedah yang diterapkan: 2 jam
DPO meluluskan. Pemindahan diteruskan.

Jumlah masa: 45 minit ditambah 2 jam semakan DPO. Berbanding empat hingga enam hari.

Lihat panduan latihan EU AI Act untuk cara langkah yang sama memenuhi kewajipan Artikel 10.

Replace vs. Redact untuk Penggunaan ML

Kaedah anonimisasi penting untuk kualiti model.

Redact menggantikan PII dengan token seperti [REDACTED]. Ini berfungsi untuk model pengesanan PII. Untuk tugas lain — sentimen, pengkelasan, cadangan — ia merosakkan. Model belajar bahawa [REDACTED] adalah token khas. Ia tidak dapat belajar daripada taburan semula jadi nama dan nilai.

Replace menukar "John Smith" kepada "David Chen." Ia menukar "jsmith@company.com" kepada "dchen@synthetic.com." Struktur kekal utuh. Penempatan entiti, corak ko-kejadian, aliran ayat — semuanya dipelihara. Model belajar daripada konteks yang realistik.

Untuk set latihan ML, Replace adalah pilihan yang tepat. Model tidak belajar nilai palsu. Ia belajar corak di sekelilingnya. Itulah yang penting.

Schrems II dan Pemindahan Rentas Sempadan

Kepumusan Schrems II (CJEU, 2020) membatalkan EU-US Privacy Shield. Rekod asal EU tidak boleh pergi ke infrastruktur ML AS — AWS US-East, GCP US-Central — tanpa perlindungan pemindahan yang betul.

Tiga perlindungan utama adalah:

Standard Contractual Clauses dengan Transfer Impact Assessment
Binding Corporate Rules untuk pemindahan dalam kumpulan syarikat
Pengecualian untuk rekod yang dianonimisasi — fail yang dianonimisasi dengan betul bukan lagi bersifat peribadi di bawah GDPR dan dikecualikan daripada peraturan pemindahan

Bagi pasukan yang menggunakan infrastruktur AS dengan set asal EU, anonimisasi yang betul menghapuskan masalah Schrems II. Set data yang bersih bukan lagi bersifat peribadi. Ia boleh bergerak dengan bebas.

Ini adalah salah satu manfaat praktikal terkuat daripada anonimisasi kelompok. Ia lebih daripada memenuhi GDPR. Ia menghapuskan geseran rentas sempadan sepenuhnya.

Untuk maklumat lanjut tentang sekatan pemindahan, lihat panduan pengehadan tujuan GDPR.

Apa yang Perlu Diberikan kepada DPO

Apabila menyerahkan set latihan yang bersih untuk kelulusan DPO, sertakan lima perkara ini:

Penerangan sumber. Apakah set data asal? Apakah tujuan pengumpulan? Apakah kategori peribadi yang terkandung di dalamnya?
Konfigurasi anonimisasi. Jenis entiti mana yang dikesan dan digantikan? Kaedah apa yang diterapkan?
Metadata pemprosesan. Kiraan entiti setiap rekod, skor keyakinan, jumlah rekod yang diproses.
Penilaian risiko residual. Apakah kemungkinan mana-mana individu boleh dikenal pasti semula? Untuk anonimisasi kaedah Replace dengan 285+ jenis entiti pada teks berstruktur, kebarangkalian ini sangat rendah.
Penggunaan yang dimaksudkan. Model apa yang akan dilatih? Apakah tujuan latihan?

Pemprosesan kelompok menyediakan item 2 dan 3 secara automatik. Item 1, 4, dan 5 datang daripada saintis data.

Lihat anonym.legal batch API untuk cara metadata pemprosesan dikembalikan dengan setiap tugas.

Apa yang Anda Perolehi

Set ML yang mematuhi GDPR boleh dicapai tanpa skrip tersuai, tanpa kelewatan berbilang hari, dan tanpa kehilangan kualiti model.

Kaedah Replace mengekalkan sifat bahasa semula jadi yang penting untuk latihan NLP. Ia mengalih keluar butiran peribadi yang mencipta risiko GDPR.

45 minit pemprosesan kelompok adalah perbezaan antara semakan pematuhan yang tertangguh dan pengesahan DPO yang mudah.

Sumber

Artikel Berkaitan

Teknikal

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Anonimisasi Data Latihan ML yang Mematuhi GDPR

Satu Skrip Tidak Mencukupi

Masalah dengan Skrip Sekali Pakai

Panduan Pemprosesan Kelompok

Replace vs. Redact untuk Penggunaan ML

Schrems II dan Pemindahan Rentas Sempadan

Apa yang Perlu Diberikan kepada DPO

Apa yang Anda Perolehi

Sumber

Artikel Berkaitan

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Sedia untuk melindungi data anda?

Anonimisasi Data Latihan ML yang Mematuhi GDPR

Satu Skrip Tidak Mencukupi

Mengapa GDPR Mengehadkan Penggunaan Latihan ML

Masalah dengan Skrip Sekali Pakai

Panduan Pemprosesan Kelompok

Replace vs. Redact untuk Penggunaan ML

Schrems II dan Pemindahan Rentas Sempadan

Apa yang Perlu Diberikan kepada DPO

Apa yang Anda Perolehi

Sumber

Artikel Berkaitan

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow