By · Last updated 2026-06-03

Kembali ke BlogTeknikal

Privasi Boleh Dihasilkan Semula: Praset ML

Penanaman nama data latihan ML mesti konsisten dan boleh dihasilkan semula. Jika saintis data A dan B menerapkan jenis entiti berbeza, set data latihan adalah tidak seragam.

June 3, 20266 min baca
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Privasi Boleh Dihasilkan Semula: Mengapa Pasukan ML Memerlukan Praset, Bukan Hanya Dokumen

DPO telah meluluskan pelan penanaman nama. Ia merangkumi empat perkara: nama, e-mel, nombor telefon, dan tarikh lahir. Kaedahnya adalah Replace. Pelan ini empat halaman dan terdapat dalam wiki pematuhan.

Dua belas saintis data membacanya semasa kickoff. Setiap seorang menyediakan alat secara sendiri. Sesetengah menambah ID kebangsaan. Sesetengah menambah alamat IP. Sesetengah beralih kepada Redact. Tiga bulan kemudian, set tidak konsisten.

CNIL menyemak beberapa firma AI pada tahun 2024. Isu: penggunaan butiran peribadi yang tidak betul dalam set model. Mereka tidak hanya bertanya sama ada penanaman nama berlaku. Mereka bertanya seberapa konsisten ia diterapkan.

Dokumen diperlukan. Ia tidak mencukupi. Penyelesaiannya adalah praset.

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Membina set model mempunyai keperluan unik. Penanaman nama dokumen umum tidak berkongsinya.

Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token tersebut sebagai penanda kedudukan nama. Ini merosakkan model. Replace menukar "John Smith" kepada "David Chen." Model melihat corak nama sebenar. Ia tidak melihat token topeng.

Proses yang sama untuk semua rekod. Set di mana 70% nama digantikan dan 30% adalah [REDACTED] menghantar isyarat bercampur. Setiap rekod mesti melalui langkah yang sama.

Senarai entiti yang sama. Jika set mengandungi butiran kesihatan, membuang nama tetapi meninggalkan tarikh lahir dalam beberapa rekod mewujudkan jurang. Semua dua belas saintis data mesti membuang jenis yang sama.

Tiada pembuangan berlebihan. Mengambil tarikh yang merupakan cap masa - bukan tarikh lahir - mengurangkan kualiti set tanpa keuntungan pematuhan. Praset yang diluluskan menyatakan dengan tepat item mana yang perlu dibuang.

Output boleh diulang. Jika set mesti dijalankan semula - katakanlah, selepas jenis entiti yang terlepas ditemui - praset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.

Masalah Dua Belas Saintis Data

Pasukan ML fintech di Eropah menggunakan set dari log pelanggan. DPO meluluskan tujuan - pengesanan penipuan - dengan satu peraturan: semua nama pelanggan, e-mel, nombor telefon, dan ID pembayaran mesti digantikan sebelum kerja model bermula.

Tanpa praset:

  • Orang 1 membuang nama, e-mel, dan nombor telefon - tetapi terlepas ID pembayaran
  • Orang 2 termasuk ID pembayaran tetapi menggunakan Redact, bukan Replace
  • Orang 3 mengikut dokumen pelan dengan tepat
  • Orang 4-12 berbeza

Set yang digabungkan sebahagiannya tidak patuh dan sebahagiannya diproses berlebihan. DPO tidak dapat mengesahkannya.

Dengan praset yang diluluskan DPO:

  • DPO mencipta "ML Dev - Pengesanan Penipuan" dengan jenis entiti tepat dan kaedah Replace
  • Praset pergi kepada semua dua belas orang dengan satu peraturan: gunakan ini untuk semua kerja set
  • Tiada sesiapa boleh mengubah praset tanpa kelulusan DPO

Setiap orang kini menghasilkan output yang sama. Set yang digabungkan adalah konsisten. Audit AI tahunan lulus dengan sifar penemuan. Tahun sebelumnya mempunyai tiga penemuan dari kerja set yang tidak konsisten.

GDPR dan AI Act

Dikemas kini untuk 2026

AI Act EU berkuat kuasa penuh pada Ogos 2024. Ia menambah peraturan untuk sistem AI yang menggunakan butiran peribadi untuk kerja model. Sistem AI berisiko tinggi mesti mendokumentasikan set mereka, termasuk penanaman nama apa yang diterapkan.

Artikel 5(1)(b) GDPR - peraturan had tujuan - menghalang penggunaan butiran peribadi tanpa asas undang-undang yang jelas. Kes 2024 CNIL memberi tumpuan kepada jurang ini: butiran yang dikumpulkan untuk satu perkhidmatan digunakan untuk kerja model tanpa asas yang sah atau penanaman nama.

Praset membantu memenuhi kedua-dua set peraturan:

  • Nama dan konfigurasi praset: kaedah yang didokumentasikan
  • Log pemprosesan: bukti kaedah telah diterapkan
  • Kelulusan DPO: rekod tandatangan pada konfigurasi

Ini mewujudkan jejak audit yang diperlukan oleh kedua-dua undang-undang. Untuk obligasi Artikel 10 secara terperinci, lihat panduan data latihan AI Act EU.

Konfigurasi Praset untuk Set Model NLP

Jenis yang perlu disertakan dalam kebanyakan set model NLP:

  • PERSON - Replace dengan nama serupa
  • EMAIL_ADDRESS - Replace dengan alamat sintetik
  • PHONE_NUMBER - Replace dengan nombor sintetik
  • CREDIT_CARD / IBAN - Replace atau Redact
  • LOCATION - Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
  • DATE_OF_BIRTH - Redact; pengelompokan umur sering diperlukan

Jenis yang sering ditinggalkan:

  • Tarikh umum - cap masa membantu model temporal
  • Nama organisasi - membantu model entiti bernama
  • URL - membantu model pautan dan rujukan

Ketua ML dan DPO menetapkan peraturan ini dalam praset yang diluluskan. Ahli pasukan menerapkannya. Mereka tidak membuat pilihan konfigurasi.

Praset sebagai Ingatan Institusi

Sebelum praset. Konfigurasi entiti yang betul tinggal dalam kepala tiga saintis data. Mereka telah melalui semakan pematuhan. Dua meninggalkan pada S3. Pengetahuan pergi bersama mereka.

Selepas praset. Konfigurasi tinggal dalam "ML Dev - Rekod Pelanggan v2.1." Log versi menunjukkan bila ia dibuat, siapa yang meluluskannya, dan apa yang berubah dari v2.0. Ahli pasukan baru menggunakan praset dan mendapat semua pengetahuan yang dibina di dalamnya.

Versi 2.1 menambah pengesanan IBAN selepas semakan mendapatinya hilang. Versi 2.0 diluluskan pada Februari 2025. Log adalah lengkap.

Untuk cara log pemprosesan dan aliran semakan DPO berfungsi, lihat panduan penanaman nama ML latihan GDPR.

Praset lwn. Corak CNIL

Kes AI 2024 CNIL menetapkan corak yang jelas. Mereka bertanya bukan hanya apa yang dibuang tetapi bagaimana ia ditadbir. Praset yang dikongsi dengan rekod kelulusan DPO dan log pemprosesan menjawab ini secara langsung.

Konfigurasi ad-hoc tidak. Jurang yang sama wujud dalam kes DPA EU lain yang mengikut logik CNIL. Untuk maklumat lanjut tentang pendekatan AI CNIL, lihat panduan pematuhan AI GDPR CNIL.

Kesimpulan

Dokumen memberitahu ahli pasukan apa yang perlu dilakukan. Praset memudahkan - dan boleh dikuatkuasakan - untuk melakukannya dengan cara yang sama setiap kali.

Untuk set model ML, konsistensi adalah keperluan undang-undang dan teknikal. Praset memenuhi kedua-duanya sekaligus.

DPA yang melihat amalan AI mahukan bukti penanaman nama yang seragam. Praset yang diterapkan dengan cara yang sama merentasi semua kerja set adalah bukti paling jelas yang boleh anda berikan kepada mereka.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.