Privasi Boleh Dihasilkan Semula: Mengapa Pasukan ML Memerlukan Praset, Bukan Hanya Dokumen
DPO telah meluluskan pelan penanaman nama. Ia merangkumi empat perkara: nama, e-mel, nombor telefon, dan tarikh lahir. Kaedahnya adalah Replace. Pelan ini empat halaman dan terdapat dalam wiki pematuhan.
Dua belas saintis data membacanya semasa kickoff. Setiap seorang menyediakan alat secara sendiri. Sesetengah menambah ID kebangsaan. Sesetengah menambah alamat IP. Sesetengah beralih kepada Redact. Tiga bulan kemudian, set tidak konsisten.
CNIL menyemak beberapa firma AI pada tahun 2024. Isu: penggunaan butiran peribadi yang tidak betul dalam set model. Mereka tidak hanya bertanya sama ada penanaman nama berlaku. Mereka bertanya seberapa konsisten ia diterapkan.
Dokumen diperlukan. Ia tidak mencukupi. Penyelesaiannya adalah praset.
Mengapa Set Model ML Memerlukan Konfigurasi Sendiri
Membina set model mempunyai keperluan unik. Penanaman nama dokumen umum tidak berkongsinya.
Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token tersebut sebagai penanda kedudukan nama. Ini merosakkan model. Replace menukar "John Smith" kepada "David Chen." Model melihat corak nama sebenar. Ia tidak melihat token topeng.
Proses yang sama untuk semua rekod. Set di mana 70% nama digantikan dan 30% adalah [REDACTED] menghantar isyarat bercampur. Setiap rekod mesti melalui langkah yang sama.
Senarai entiti yang sama. Jika set mengandungi butiran kesihatan, membuang nama tetapi meninggalkan tarikh lahir dalam beberapa rekod mewujudkan jurang. Semua dua belas saintis data mesti membuang jenis yang sama.
Tiada pembuangan berlebihan. Mengambil tarikh yang merupakan cap masa - bukan tarikh lahir - mengurangkan kualiti set tanpa keuntungan pematuhan. Praset yang diluluskan menyatakan dengan tepat item mana yang perlu dibuang.
Output boleh diulang. Jika set mesti dijalankan semula - katakanlah, selepas jenis entiti yang terlepas ditemui - praset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.
Masalah Dua Belas Saintis Data
Pasukan ML fintech di Eropah menggunakan set dari log pelanggan. DPO meluluskan tujuan - pengesanan penipuan - dengan satu peraturan: semua nama pelanggan, e-mel, nombor telefon, dan ID pembayaran mesti digantikan sebelum kerja model bermula.
Tanpa praset:
- Orang 1 membuang nama, e-mel, dan nombor telefon - tetapi terlepas ID pembayaran
- Orang 2 termasuk ID pembayaran tetapi menggunakan Redact, bukan Replace
- Orang 3 mengikut dokumen pelan dengan tepat
- Orang 4-12 berbeza
Set yang digabungkan sebahagiannya tidak patuh dan sebahagiannya diproses berlebihan. DPO tidak dapat mengesahkannya.
Dengan praset yang diluluskan DPO:
- DPO mencipta "ML Dev - Pengesanan Penipuan" dengan jenis entiti tepat dan kaedah Replace
- Praset pergi kepada semua dua belas orang dengan satu peraturan: gunakan ini untuk semua kerja set
- Tiada sesiapa boleh mengubah praset tanpa kelulusan DPO
Setiap orang kini menghasilkan output yang sama. Set yang digabungkan adalah konsisten. Audit AI tahunan lulus dengan sifar penemuan. Tahun sebelumnya mempunyai tiga penemuan dari kerja set yang tidak konsisten.
GDPR dan AI Act
Dikemas kini untuk 2026
AI Act EU berkuat kuasa penuh pada Ogos 2024. Ia menambah peraturan untuk sistem AI yang menggunakan butiran peribadi untuk kerja model. Sistem AI berisiko tinggi mesti mendokumentasikan set mereka, termasuk penanaman nama apa yang diterapkan.
Artikel 5(1)(b) GDPR - peraturan had tujuan - menghalang penggunaan butiran peribadi tanpa asas undang-undang yang jelas. Kes 2024 CNIL memberi tumpuan kepada jurang ini: butiran yang dikumpulkan untuk satu perkhidmatan digunakan untuk kerja model tanpa asas yang sah atau penanaman nama.
Praset membantu memenuhi kedua-dua set peraturan:
- Nama dan konfigurasi praset: kaedah yang didokumentasikan
- Log pemprosesan: bukti kaedah telah diterapkan
- Kelulusan DPO: rekod tandatangan pada konfigurasi
Ini mewujudkan jejak audit yang diperlukan oleh kedua-dua undang-undang. Untuk obligasi Artikel 10 secara terperinci, lihat panduan data latihan AI Act EU.
Konfigurasi Praset untuk Set Model NLP
Jenis yang perlu disertakan dalam kebanyakan set model NLP:
- PERSON - Replace dengan nama serupa
- EMAIL_ADDRESS - Replace dengan alamat sintetik
- PHONE_NUMBER - Replace dengan nombor sintetik
- CREDIT_CARD / IBAN - Replace atau Redact
- LOCATION - Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
- DATE_OF_BIRTH - Redact; pengelompokan umur sering diperlukan
Jenis yang sering ditinggalkan:
- Tarikh umum - cap masa membantu model temporal
- Nama organisasi - membantu model entiti bernama
- URL - membantu model pautan dan rujukan
Ketua ML dan DPO menetapkan peraturan ini dalam praset yang diluluskan. Ahli pasukan menerapkannya. Mereka tidak membuat pilihan konfigurasi.
Praset sebagai Ingatan Institusi
Sebelum praset. Konfigurasi entiti yang betul tinggal dalam kepala tiga saintis data. Mereka telah melalui semakan pematuhan. Dua meninggalkan pada S3. Pengetahuan pergi bersama mereka.
Selepas praset. Konfigurasi tinggal dalam "ML Dev - Rekod Pelanggan v2.1." Log versi menunjukkan bila ia dibuat, siapa yang meluluskannya, dan apa yang berubah dari v2.0. Ahli pasukan baru menggunakan praset dan mendapat semua pengetahuan yang dibina di dalamnya.
Versi 2.1 menambah pengesanan IBAN selepas semakan mendapatinya hilang. Versi 2.0 diluluskan pada Februari 2025. Log adalah lengkap.
Untuk cara log pemprosesan dan aliran semakan DPO berfungsi, lihat panduan penanaman nama ML latihan GDPR.
Praset lwn. Corak CNIL
Kes AI 2024 CNIL menetapkan corak yang jelas. Mereka bertanya bukan hanya apa yang dibuang tetapi bagaimana ia ditadbir. Praset yang dikongsi dengan rekod kelulusan DPO dan log pemprosesan menjawab ini secara langsung.
Konfigurasi ad-hoc tidak. Jurang yang sama wujud dalam kes DPA EU lain yang mengikut logik CNIL. Untuk maklumat lanjut tentang pendekatan AI CNIL, lihat panduan pematuhan AI GDPR CNIL.
Kesimpulan
Dokumen memberitahu ahli pasukan apa yang perlu dilakukan. Praset memudahkan - dan boleh dikuatkuasakan - untuk melakukannya dengan cara yang sama setiap kali.
Untuk set model ML, konsistensi adalah keperluan undang-undang dan teknikal. Praset memenuhi kedua-duanya sekaligus.
DPA yang melihat amalan AI mahukan bukti penanaman nama yang seragam. Praset yang diterapkan dengan cara yang sama merentasi semua kerja set adalah bukti paling jelas yang boleh anda berikan kepada mereka.