Privasi Boleh Dihasilkan Semula: Mengapa Pasukan ML Memerlukan Praset, Bukan Hanya Dokumen

DPO telah meluluskan pelan penanaman nama. Ia merangkumi empat perkara: nama, e-mel, nombor telefon, dan tarikh lahir. Kaedahnya adalah Replace. Pelan ini empat halaman dan terdapat dalam wiki pematuhan.

Dua belas saintis data membacanya semasa kickoff. Setiap seorang menyediakan alat secara sendiri. Sesetengah menambah ID kebangsaan. Sesetengah menambah alamat IP. Sesetengah beralih kepada Redact. Tiga bulan kemudian, set tidak konsisten.

CNIL menyemak beberapa firma AI pada tahun 2024. Isu: penggunaan butiran peribadi yang tidak betul dalam set model. Mereka tidak hanya bertanya sama ada penanaman nama berlaku. Mereka bertanya seberapa konsisten ia diterapkan.

Dokumen diperlukan. Ia tidak mencukupi. Penyelesaiannya adalah praset.

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Membina set model mempunyai keperluan unik. Penanaman nama dokumen umum tidak berkongsinya.

Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token tersebut sebagai penanda kedudukan nama. Ini merosakkan model. Replace menukar "John Smith" kepada "David Chen." Model melihat corak nama sebenar. Ia tidak melihat token topeng.

Proses yang sama untuk semua rekod. Set di mana 70% nama digantikan dan 30% adalah [REDACTED] menghantar isyarat bercampur. Setiap rekod mesti melalui langkah yang sama.

Senarai entiti yang sama. Jika set mengandungi butiran kesihatan, membuang nama tetapi meninggalkan tarikh lahir dalam beberapa rekod mewujudkan jurang. Semua dua belas saintis data mesti membuang jenis yang sama.

Tiada pembuangan berlebihan. Mengambil tarikh yang merupakan cap masa - bukan tarikh lahir - mengurangkan kualiti set tanpa keuntungan pematuhan. Praset yang diluluskan menyatakan dengan tepat item mana yang perlu dibuang.

Output boleh diulang. Jika set mesti dijalankan semula - katakanlah, selepas jenis entiti yang terlepas ditemui - praset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.

Masalah Dua Belas Saintis Data

Pasukan ML fintech di Eropah menggunakan set dari log pelanggan. DPO meluluskan tujuan - pengesanan penipuan - dengan satu peraturan: semua nama pelanggan, e-mel, nombor telefon, dan ID pembayaran mesti digantikan sebelum kerja model bermula.

Tanpa praset:

Orang 1 membuang nama, e-mel, dan nombor telefon - tetapi terlepas ID pembayaran
Orang 2 termasuk ID pembayaran tetapi menggunakan Redact, bukan Replace
Orang 3 mengikut dokumen pelan dengan tepat
Orang 4-12 berbeza

Set yang digabungkan sebahagiannya tidak patuh dan sebahagiannya diproses berlebihan. DPO tidak dapat mengesahkannya.

Dengan praset yang diluluskan DPO:

DPO mencipta "ML Dev - Pengesanan Penipuan" dengan jenis entiti tepat dan kaedah Replace
Praset pergi kepada semua dua belas orang dengan satu peraturan: gunakan ini untuk semua kerja set
Tiada sesiapa boleh mengubah praset tanpa kelulusan DPO

Setiap orang kini menghasilkan output yang sama. Set yang digabungkan adalah konsisten. Audit AI tahunan lulus dengan sifar penemuan. Tahun sebelumnya mempunyai tiga penemuan dari kerja set yang tidak konsisten.

Dikemas kini untuk 2026

AI Act EU berkuat kuasa penuh pada Ogos 2024. Ia menambah peraturan untuk sistem AI yang menggunakan butiran peribadi untuk kerja model. Sistem AI berisiko tinggi mesti mendokumentasikan set mereka, termasuk penanaman nama apa yang diterapkan.

Artikel 5(1)(b) GDPR - peraturan had tujuan - menghalang penggunaan butiran peribadi tanpa asas undang-undang yang jelas. Kes 2024 CNIL memberi tumpuan kepada jurang ini: butiran yang dikumpulkan untuk satu perkhidmatan digunakan untuk kerja model tanpa asas yang sah atau penanaman nama.

Praset membantu memenuhi kedua-dua set peraturan:

Nama dan konfigurasi praset: kaedah yang didokumentasikan
Log pemprosesan: bukti kaedah telah diterapkan
Kelulusan DPO: rekod tandatangan pada konfigurasi

Ini mewujudkan jejak audit yang diperlukan oleh kedua-dua undang-undang. Untuk obligasi Artikel 10 secara terperinci, lihat panduan data latihan AI Act EU.

Konfigurasi Praset untuk Set Model NLP

Jenis yang perlu disertakan dalam kebanyakan set model NLP:

PERSON - Replace dengan nama serupa
EMAIL_ADDRESS - Replace dengan alamat sintetik
PHONE_NUMBER - Replace dengan nombor sintetik
CREDIT_CARD / IBAN - Replace atau Redact
LOCATION - Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
DATE_OF_BIRTH - Redact; pengelompokan umur sering diperlukan

Jenis yang sering ditinggalkan:

Tarikh umum - cap masa membantu model temporal
Nama organisasi - membantu model entiti bernama
URL - membantu model pautan dan rujukan

Ketua ML dan DPO menetapkan peraturan ini dalam praset yang diluluskan. Ahli pasukan menerapkannya. Mereka tidak membuat pilihan konfigurasi.

Praset sebagai Ingatan Institusi

Sebelum praset. Konfigurasi entiti yang betul tinggal dalam kepala tiga saintis data. Mereka telah melalui semakan pematuhan. Dua meninggalkan pada S3. Pengetahuan pergi bersama mereka.

Selepas praset. Konfigurasi tinggal dalam "ML Dev - Rekod Pelanggan v2.1." Log versi menunjukkan bila ia dibuat, siapa yang meluluskannya, dan apa yang berubah dari v2.0. Ahli pasukan baru menggunakan praset dan mendapat semua pengetahuan yang dibina di dalamnya.

Versi 2.1 menambah pengesanan IBAN selepas semakan mendapatinya hilang. Versi 2.0 diluluskan pada Februari 2025. Log adalah lengkap.

Untuk cara log pemprosesan dan aliran semakan DPO berfungsi, lihat panduan penanaman nama ML latihan GDPR.

Praset lwn. Corak CNIL

Kes AI 2024 CNIL menetapkan corak yang jelas. Mereka bertanya bukan hanya apa yang dibuang tetapi bagaimana ia ditadbir. Praset yang dikongsi dengan rekod kelulusan DPO dan log pemprosesan menjawab ini secara langsung.

Konfigurasi ad-hoc tidak. Jurang yang sama wujud dalam kes DPA EU lain yang mengikut logik CNIL. Untuk maklumat lanjut tentang pendekatan AI CNIL, lihat panduan pematuhan AI GDPR CNIL.

Kesimpulan

Dokumen memberitahu ahli pasukan apa yang perlu dilakukan. Praset memudahkan - dan boleh dikuatkuasakan - untuk melakukannya dengan cara yang sama setiap kali.

Untuk set model ML, konsistensi adalah keperluan undang-undang dan teknikal. Praset memenuhi kedua-duanya sekaligus.

DPA yang melihat amalan AI mahukan bukti penanaman nama yang seragam. Praset yang diterapkan dengan cara yang sama merentasi semua kerja set adalah bukti paling jelas yang boleh anda berikan kepada mereka.

Sumber

Artikel Berkaitan

Teknikal

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Privasi Boleh Dihasilkan Semula: Praset ML

Privasi Boleh Dihasilkan Semula: Mengapa Pasukan ML Memerlukan Praset, Bukan Hanya Dokumen

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Masalah Dua Belas Saintis Data

Konfigurasi Praset untuk Set Model NLP

Praset sebagai Ingatan Institusi

Praset lwn. Corak CNIL

Kesimpulan

Sumber

Artikel Berkaitan

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Sedia untuk melindungi data anda?

Privasi Boleh Dihasilkan Semula: Praset ML

Privasi Boleh Dihasilkan Semula: Mengapa Pasukan ML Memerlukan Praset, Bukan Hanya Dokumen

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Masalah Dua Belas Saintis Data

GDPR dan AI Act

Konfigurasi Praset untuk Set Model NLP

Praset sebagai Ingatan Institusi

Praset lwn. Corak CNIL

Kesimpulan

Sumber

Artikel Berkaitan

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow