Hitungan Mundur Telah Dimulai
Diperbarui untuk 2026
Batas waktu EU AI Act adalah nyata. Aturan Pasal 10 berlaku mulai 2 Agustus 2026. Jika tim Anda membangun atau mengoperasikan sistem AI berisiko tinggi, Anda harus bertindak sekarang. Waktunya singkat.
Denda lebih tinggi dari GDPR. Denda maksimum adalah €35 juta atau 7% dari omzet tahunan global. Batas GDPR adalah €20 juta atau 4%. Tidak ada undang-undang AI lain yang memiliki denda lebih tinggi.
Sistem AI Mana yang Berisiko Tinggi?
AI Act mengklasifikasikan sistem berdasarkan risiko. Sistem berisiko tinggi (Lampiran III) mencakup AI yang digunakan dalam:
- Pendidikan — akses sekolah atau penilaian siswa
- Pekerjaan — penyaringan CV, penilaian wawancara, pemantauan karyawan
- Layanan penting — penilaian kredit, harga asuransi, panggilan darurat
- Penegakan hukum — prediksi kejahatan, ID biometrik
- Layanan kesehatan — perangkat lunak perangkat medis, triase pasien
- Infrastruktur — manajemen energi, air, atau transportasi
- Peradilan — alat penelitian hukum, alat penentuan hukuman
Apakah Anda beroperasi di salah satu bidang ini? Pasal 10 berlaku untuk Anda.
Pasal 10: Empat Aturan Utama
Pasal 10 menetapkan aturan untuk dataset yang digunakan oleh sistem AI berisiko tinggi. Berikut empat yang paling penting.
1. Tata kelola tertulis
Dataset harus mengikuti "praktik tata kelola dan manajemen data yang tepat." Anda memerlukan langkah-langkah tertulis untuk pengumpulan, kontrol kualitas, dan tinjauan berkelanjutan.
2. Pengujian bias
Data harus diperiksa untuk "kemungkinan bias" yang dapat menyebabkan output yang tidak adil. Pengujian aktif diperlukan. Menghindari bias yang disengaja saja tidak cukup.
3. Akurasi dan cakupan
Dataset harus "relevan, cukup representatif, dan bebas kesalahan." Crawl web yang mengabaikan kelompok tertentu dapat gagal dalam uji ini.
4. Kategori data khusus
Pasal 10(5) adalah aturan yang paling langsung. Ketika sistem berisiko tinggi menggunakan kategori data khusus — kesehatan, ras, agama, politik, biometrik — Anda hanya boleh memprosesnya ketika "benar-benar diperlukan" untuk pemeriksaan bias. Anda juga harus menerapkan "pengamanan yang tepat." Scrubbing data adalah salah satu pengamanan terkuat yang dapat Anda gunakan.
Kesimpulannya: sebagian besar dataset model AI mengandung data pribadi. Pasal 10 menyatakan: gunakan minimum yang diperlukan, dengan langkah teknis yang kuat.
Lihat halaman kepatuhan hukum dan ikhtisar keamanan kami untuk detailnya.
Level Denda
EU AI Act memiliki tiga level denda. Semuanya melampaui GDPR untuk jenis pelanggaran yang sama:
| Regulasi | Denda Maks. | Batas Omzet |
|---|---|---|
| GDPR | €20 juta | 4% omzet global |
| EU AI Act (berisiko tinggi) | €15 juta | 3% omzet global |
| EU AI Act (terlarang) | €35 juta | 7% omzet global |
Pelanggaran dataset masuk dalam level berisiko tinggi (€15 juta / 3%). Jika regulator menemukan bahwa penggunaan data pribadi tanpa pengamanan adalah tindakan terlarang, level tertinggi berlaku.
Contoh nyata: omzet €500 juta pada 3% = denda €15 juta. Omzet €5 miliar pada 3% = denda €150 juta. Itu angka nyata, bukan teori.
Mengapa Scrubbing Data Mengatasi Ini
Data yang di-scrub dengan benar berada di luar cakupan GDPR. Ini menghilangkan sebagian besar beban Pasal 10.
Aturan ketat — penanganan kategori khusus, pengujian bias, hak subjek data — hanya berlaku ketika dataset mengandung data pribadi. Hapus data tersebut terlebih dahulu. Bebannya sebagian besar hilang.
CNIL (otoritas perlindungan data Prancis) memperjelas ini pada awal 2026. Panduan AI-nya menyatakan: scrubbing data pribadi yang tidak diperlukan untuk kinerja model adalah langkah teknis utama untuk Pasal 10.
Ini bukan posisi marginal. Ini adalah posisi resmi regulator AI tertinggi EU.
Apa Arti Scrubbing Data dalam Praktik
Scrubbing dataset model AI tidak sama dengan scrubbing data produksi live. Dataset model dapat mengandung:
- Dokumen dengan PII — kontrak, email, laporan, tiket dukungan
- Data terstruktur — tabel pelanggan yang digunakan untuk membangun model prediktif
- Data berlabel — gambar atau teks dengan anotasi yang mengandung data pribadi
- Data sintetis — di mana generasinya masih dapat mempertahankan pola pribadi
Anda harus mendeteksi PII dalam semua format ini. Melewatkan satu jenis mengekspos seluruh dataset. Kontrak dengan nama dihapus tetapi alamat lengkap masih utuh akan mengajarkan model untuk menghubungkan lokasi dengan pola demografis.
API anonym.legal menangani pemrosesan batch untuk dataset AI besar. Ia mendeteksi 285+ jenis entitas dalam 48 bahasa. Untuk perusahaan AI Eropa dengan dataset multibahasa, cakupan lintas bahasa sangat penting. Celah dalam satu bahasa menciptakan risiko EU AI Act di seluruh sistem.
Untuk informasi lebih lanjut tentang deteksi entitas, lihat panduan sistem token dan referensi jenis entitas.
Langkah Praktis: Scrubbing Dataset Anda
Langkah 1: Audit terlebih dahulu
Jalankan tinjauan deteksi sebelum men-scrub apa pun. Ini memberi tahu Anda PII apa yang ada:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Respons menunjukkan semua entitas yang terdeteksi dengan jenis, posisi, dan skor. Jalankan ini di semua file Anda untuk melihat cakupan penuh sebelum memulai.
Langkah 2: Scrubbing batch
Untuk dataset besar, gunakan endpoint batch untuk memproses banyak file sekaligus:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Selesai: {result['id']} — {len(result['items'])} entitas dihapus")
Langkah 3: Simpan catatan
Pasal 10 mewajibkan catatan tertulis tentang apa yang Anda lakukan. Untuk setiap dataset, simpan:
- Model deteksi dan versi yang digunakan
- Jenis entitas apa yang ditemukan dan bagaimana masing-masing diganti
- Jumlah entitas yang dihapus per dataset
- Tanggal scrubbing dan versi dataset yang digunakan
Ini memenuhi persyaratan "praktik tata kelola dan manajemen data" dalam Pasal 10(2)(a).
Pertanyaan Umum
Apakah scrubbing menurunkan kualitas model?
Dalam sebagian besar kasus, tidak. Model belajar pola dari struktur teks, bukan detail pribadi. Nama, nomor telepon, dan alamat dapat digantikan dengan placeholder seperti [NAME] atau [PHONE], dan model masih belajar pola yang sama. Banyak tim peneliti menemukan bahwa dataset yang di-scrub menghasilkan model dengan kualitas yang sebanding. Kuncinya adalah menggunakan placeholder yang konsisten sehingga model melihat pola yang jelas.
Bagaimana jika dataset saya sangat besar?
Gunakan batch API. Ia menangani volume besar secara paralel. Halaman harga menampilkan langganan untuk skenario volume tinggi. Banyak tim memproses jutaan catatan per bulan.
Bagaimana dengan dataset non-Inggris?
API mendukung 48 bahasa. Setiap bahasa menggunakan model deteksi yang dilatih pada bahasa tersebut. Artinya Jerman, Prancis, Spanyol, Jepang, dan bahasa lainnya semuanya tercakup. Lihat FAQ untuk daftar bahasa lengkap. Dataset campuran juga didukung — Anda dapat menentukan bahasa per dokumen dalam permintaan batch.
Colorado AI Act: Dua Batas Waktu
Colorado AI Act berlaku mulai 30 Juni 2026 — lima minggu sebelum batas waktu EU. Ia menetapkan aturan serupa untuk "sistem AI berisiko tinggi" di bawah hukum negara bagian. Fokusnya terutama pada bias dan diskriminasi.
Tim yang berada di EU dan Colorado memiliki dua batas waktu sekaligus. Scrubbing dataset Anda membantu memenuhi kedua undang-undang: Pasal 10 (EU) dan aturan anti-bias Colorado. Langkah teknisnya sama.
Bertindak Sekarang
Lima bulan cukup waktu — jika Anda mulai hari ini. Tidak cukup jika Anda menunggu hingga Juni.
Jadwal praktis:
- Minggu 1-2: Audit dataset Anda — temukan data pribadi apa yang ada
- Minggu 3-6: Bangun dan uji pipeline scrubbing Anda
- Minggu 7-10: Tulis catatan tata kelola Anda; dapatkan tinjauan hukum
- Minggu 11-16: Validasi — konfirmasi dataset yang di-scrub memenuhi aturan kualitas Pasal 10
- 2 Agustus: Tanggal penegakan — praktik yang sesuai sudah diterapkan
API anonym.legal terintegrasi dalam pipeline Anda saat ini tanpa perubahan besar. Periksa harga untuk paket volume. FAQ mencakup pertanyaan umum tentang Pasal 10.
Gunakan daftar periksa kepatuhan GDPR untuk data yang tumpang tindih antara GDPR dan Pasal 10.
EU AI Act siap ditegakkan. Apakah organisasi Anda akan siap pada 2 Agustus?
Mulai dengan daftar periksa kepatuhan GDPR →
Batasan dan Pertanyaan Terbuka
Scrubbing data untuk regulasi AI Act masih terus berkembang. Berikut kesenjangan utama.
Ambang batas belum ditentukan. EU AI Act tidak menentukan level scrubbing mana yang "memadai." Hingga Kantor AI Eropa mengeluarkan panduan, Anda menghadapi risiko hukum. Anda mungkin tidak tahu apakah metode Anda akan memuaskan regulator.
Risiko re-identifikasi tetap ada. Penelitian menunjukkan bahwa model bahasa besar dapat mengingat dan mereproduksi konten dari dataset pelatihannya. Data yang melewati standar scrubbing sebelum pengembangan model mungkin masih dapat diekstrak. Scrubbing sebelum pengembangan tidak sepenuhnya menyelesaikan masalah ini.
Data sintetis memiliki keterbatasan. Generasi sintetis mempertahankan pola statistik, tetapi dapat menambahkan bias halus atau mengabaikan kasus tepi yang jarang. Model yang dibangun hanya dari konten sintetis mungkin berkinerja buruk pada input nyata.
Pasal 10 masih ditafsirkan. Frasa "langkah teknis yang tepat" memerlukan interpretasi. Pekerjaan awal DPA di seluruh negara anggota EU belum menetapkan standar yang jelas. Ikuti panduan EDPB dan keputusan negara anggota sepanjang 2026.
Sumber
- EU AI Act, Regulasi (EU) 2024/1689, Pasal 9-17 (kewajiban AI berisiko tinggi), OJ L 2024/1689
- EU AI Act, Pasal 10 — Data dan tata kelola data
- Panduan dataset AI CNIL, Januari 2026
- Colorado AI Act, SB 205, berlaku mulai 30 Juni 2026
- Jadwal EU AI Act: praktik terlarang 2 Februari 2025; sistem berisiko tinggi 2 Agustus 2026