By · Last updated 2026-06-03

Kembali ke BlogTeknis

Privasi yang Dapat Direproduksi: Preset ML

Anonimisasi data pelatihan ML harus konsisten dan dapat direproduksi. Jika ilmuwan data A dan B menerapkan jenis entitas yang berbeda, dataset pelatihan menjadi tidak konsisten.

June 3, 20266 menit baca
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Privasi yang Dapat Direproduksi: Mengapa Tim ML Memerlukan Preset, Bukan Hanya Dokumentasi

DPO menyetujui rencana anonimisasi. Mencakup empat item: nama, email, nomor telepon, dan tanggal lahir. Metodenya adalah Replace. Rencananya empat halaman dan tersimpan di wiki kepatuhan.

Dua belas ilmuwan data membacanya saat kickoff. Masing-masing menyiapkan alat sendiri. Beberapa menambahkan ID nasional. Beberapa menambahkan alamat IP. Beberapa beralih ke Redact. Tiga bulan kemudian, set tidak konsisten.

CNIL memeriksa beberapa perusahaan AI pada 2024. Masalahnya: penggunaan detail pribadi yang tidak tepat dalam set model. Mereka tidak hanya menanyakan apakah anonimisasi terjadi. Mereka menanyakan seberapa konsisten penerapannya.

Dokumentasi diperlukan. Tapi tidak cukup. Solusinya adalah preset.

Mengapa Set Model ML Memerlukan Konfigurasi Sendiri

Membangun set model memiliki kebutuhan unik. Anonimisasi dokumen umum tidak memilikinya.

Replace, bukan Redact. Model yang dilatih pada teks di mana nama menjadi [REDACTED] mempelajari token itu sebagai penanda posisi nama. Ini merusak model. Replace menukar "John Smith" dengan "David Chen." Model melihat pola nama nyata. Tidak melihat token masker.

Proses yang sama untuk semua catatan. Set di mana 70% nama diganti dan 30% adalah [REDACTED] mengirim sinyal campuran. Setiap catatan harus melalui langkah yang sama.

Daftar entitas yang sama. Jika set berisi detail kesehatan, menghapus nama tetapi membiarkan tanggal lahir di beberapa catatan menciptakan celah. Semua dua belas ilmuwan data harus menghapus jenis yang sama.

Tidak ada penghapusan berlebihan. Mengambil tanggal yang merupakan cap waktu — bukan tanggal lahir — mengurangi kualitas set tanpa keuntungan kepatuhan. Preset yang disetujui menyatakan dengan tepat item mana yang harus dihapus.

Output yang dapat diulang. Jika set harus dijalankan ulang — misalnya, setelah jenis entitas yang terlewat ditemukan — preset memberikan hasil yang sama setiap kali. Konfigurasi ad-hoc tidak.

Masalah Dua Belas Ilmuwan Data

Tim ML fintech di Eropa menggunakan set dari log pelanggan. DPO menyetujui tujuan — deteksi penipuan — dengan satu aturan: semua nama pelanggan, email, nomor telepon, dan ID pembayaran harus diganti sebelum pekerjaan model dimulai.

Tanpa preset:

  • Orang 1 menghapus nama, email, dan nomor telepon — tetapi melewatkan ID pembayaran
  • Orang 2 menyertakan ID pembayaran tetapi menggunakan Redact, bukan Replace
  • Orang 3 mengikuti dokumen rencana dengan tepat
  • Orang 4–12 bervariasi

Set yang digabungkan sebagian tidak patuh dan sebagian diproses berlebihan. DPO tidak dapat mengesahkannya.

Dengan preset yang disetujui DPO:

  • DPO membuat "ML Dev — Deteksi Penipuan" dengan jenis entitas yang tepat dan metode Replace
  • Preset diberikan ke semua dua belas orang dengan satu aturan: gunakan ini untuk semua pekerjaan set
  • Tidak ada yang dapat mengubah preset tanpa persetujuan DPO

Setiap orang sekarang menghasilkan output yang sama. Set yang digabungkan konsisten. Audit AI tahunan lulus dengan nol temuan. Tahun sebelumnya memiliki tiga temuan dari pekerjaan set yang tidak konsisten.

GDPR dan AI Act

Diperbarui untuk 2026

UU AI EU berlaku penuh pada Agustus 2024. Ini menambahkan aturan untuk sistem AI yang menggunakan detail pribadi untuk pekerjaan model. Sistem AI berisiko tinggi harus mendokumentasikan set mereka, termasuk anonimisasi apa yang diterapkan.

Pasal 5(1)(b) GDPR — aturan batas tujuan — memblokir penggunaan detail pribadi tanpa dasar hukum yang jelas. Kasus CNIL 2024 berfokus pada celah ini: detail yang dikumpulkan untuk satu layanan digunakan untuk pekerjaan model tanpa dasar yang valid atau anonimisasi.

Preset membantu memenuhi kedua set aturan:

  • Nama dan konfigurasi preset: metode yang didokumentasikan
  • Log pemrosesan: bukti metode diterapkan
  • Persetujuan DPO: tanda tangan yang tercatat pada konfigurasi

Ini menciptakan jejak audit yang diwajibkan kedua undang-undang. Untuk kewajiban Pasal 10 secara detail, lihat panduan data pelatihan UU AI EU.

Konfigurasi Preset untuk Set Model NLP

Jenis yang disertakan dalam sebagian besar set model NLP:

  • PERSON — Replace dengan nama serupa
  • EMAIL_ADDRESS — Replace dengan alamat sintetis
  • PHONE_NUMBER — Replace dengan nomor sintetis
  • CREDIT_CARD / IBAN — Replace atau Redact
  • LOCATION — Replace dengan tempat serupa jika lokasi penting; Redact jika tidak
  • DATE_OF_BIRTH — Redact; pengelompokan usia sering diperlukan

Jenis yang sering dikecualikan:

  • Tanggal umum — cap waktu membantu model temporal
  • Nama organisasi — membantu model entitas bernama
  • URL — membantu model tautan dan referensi

Pemimpin ML dan DPO menetapkan aturan ini dalam preset yang disetujui. Anggota tim menerapkannya. Mereka tidak membuat pilihan konfigurasi.

Preset sebagai Memori Institusional

Sebelum preset. Konfigurasi entitas yang tepat ada di kepala tiga ilmuwan data. Mereka telah melalui tinjauan kepatuhan. Dua pergi di Q3. Pengetahuan ikut pergi bersama mereka.

Setelah preset. Konfigurasi ada dalam "ML Dev — Catatan Pelanggan v2.1." Log versi menunjukkan kapan dibuat, siapa yang menyetujui, dan apa yang berubah dari v2.0. Anggota tim baru menggunakan preset dan mendapatkan semua pengetahuan yang dibangun di dalamnya.

Versi 2.1 menambahkan deteksi IBAN setelah tinjauan menemukan kekurangannya. Versi 2.0 disetujui Februari 2025. Log lengkap.

Untuk cara log pemrosesan dan alur tinjauan DPO bekerja, lihat panduan anonimisasi ML pelatihan GDPR.

Preset vs. Pola CNIL

Kasus AI CNIL 2024 menetapkan pola yang jelas. Mereka menanyakan tidak hanya apa yang dihapus tetapi bagaimana pengelolaannya. Preset bersama dengan catatan persetujuan DPO dan log pemrosesan menjawab ini secara langsung.

Konfigurasi ad-hoc tidak. Celah yang sama ada dalam kasus DPA EU lain yang mengikuti logika CNIL. Untuk lebih lanjut tentang pendekatan AI CNIL, lihat panduan kepatuhan AI GDPR CNIL.

Kesimpulan

Dokumentasi memberi tahu anggota tim apa yang harus dilakukan. Preset memudahkan — dan memaksa — melakukannya dengan cara yang sama setiap kali.

Untuk set model ML, konsistensi adalah kebutuhan hukum sekaligus teknis. Preset memenuhi keduanya sekaligus.

DPA yang melihat praktik AI menginginkan bukti anonimisasi yang seragam. Preset yang diterapkan dengan cara yang sama di seluruh pekerjaan set adalah bukti terjelas yang dapat Anda berikan.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.