Kembali ke BlogTeknikal

Data Latihan ML Keselarasan GDPR: Tanpa nama 10,000...

Organisasi yang membina model pembelajaran mesin memerlukan data latihan tetapi mesti mematuhi GDPR.

April 19, 20267 min baca
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Mengapa Data Latihan ML Memerlukan Keselarasan GDPR

Organisasi yang membina model pembelajaran mesin (ML) menggunakan data perikanan peribadi untuk melatih model. Jika model itu belajar daripada data perikanan orang sebenar, model itu adalah "pemprosesan data" di bawah GDPR.

GDPR memerlukan:

  1. Tujuan yang sah — Anda mempunyai hak undang-undang untuk melatih model pada data perikanan orang
  2. Pemberitahuan — Anda memberitahu individu bahwa data mereka digunakan untuk melatihan ML
  3. Pembatasan — Anda tidak menyimpan data yang tidak perlu (prinsip minimisasi data GDPR)
  4. Keselamatan — Data latihan disimpan dengan selamat
  5. Penghapusan — Jika individu meminta penghapusan, Anda menghapus data latihan mereka

Tanpa nama adalah satu cara untuk mencapai keselarasan GDPR untuk data latihan ML: jika Anda menghapuskan semua maklumat yang boleh mengenal pasti individu, data itu tidak lagi "data peribadi" di bawah GDPR, dan Anda boleh menggunakannya tanpa pembatasan.

Tanpa nama Data Latihan ML pada Skala

Membina model ML dengan jujur memerlukan ribuan sehingga jutaan titik data latihan. Menganonimkan 10,000 rekod secara manual adalah tidak praktikal.

Tanpa nama batch otomatis boleh:

  1. Muatkan pangkalan data data latihan anda
  2. Kenal pasti PII di semua lajur
  3. Tanpa nama atau padamkan PII
  4. Keluarkan pangkalan data yang dinyahkenalkan

Tiada pengetahuan teknikal diperlukan. Tiada kod keperluan. Hanya muatan, kejar, keluaran.

Keuntungan untuk Organisasi ML

  1. Keselarasan GDPR — data latihan tanpa nama tidak lagi "data peribadi"
  2. Kelajuan — memproses 10,000 rekod dalam hari, bukannya bulan
  3. Keamanan — tiada maklumat yang boleh mengenal pasti individu dalam data latihan
  4. Keselamatan — tiada orang boleh mendedahkan model ML dan mencari tahu keadaan data latihan peribadi

Bagi organisasi yang membina model ML, tanpa nama data latihan adalah langkah keselarasan GDPR yang diperlukan.

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.