Hitungan Mundur Telah Dimulai

Diperbarui untuk 2026

Batas waktu EU AI Act adalah nyata. Aturan Pasal 10 berlaku mulai 2 Agustus 2026. Jika tim Anda membangun atau mengoperasikan sistem AI berisiko tinggi, Anda harus bertindak sekarang. Waktunya singkat.

Denda lebih tinggi dari GDPR. Denda maksimum adalah €35 juta atau 7% dari omzet tahunan global. Batas GDPR adalah €20 juta atau 4%. Tidak ada undang-undang AI lain yang memiliki denda lebih tinggi.

Sistem AI Mana yang Berisiko Tinggi?

AI Act mengklasifikasikan sistem berdasarkan risiko. Sistem berisiko tinggi (Lampiran III) mencakup AI yang digunakan dalam:

Pendidikan — akses sekolah atau penilaian siswa
Pekerjaan — penyaringan CV, penilaian wawancara, pemantauan karyawan
Layanan penting — penilaian kredit, harga asuransi, panggilan darurat
Penegakan hukum — prediksi kejahatan, ID biometrik
Layanan kesehatan — perangkat lunak perangkat medis, triase pasien
Infrastruktur — manajemen energi, air, atau transportasi
Peradilan — alat penelitian hukum, alat penentuan hukuman

Apakah Anda beroperasi di salah satu bidang ini? Pasal 10 berlaku untuk Anda.

Pasal 10: Empat Aturan Utama

Pasal 10 menetapkan aturan untuk dataset yang digunakan oleh sistem AI berisiko tinggi. Berikut empat yang paling penting.

1. Tata kelola tertulis

Dataset harus mengikuti "praktik tata kelola dan manajemen data yang tepat." Anda memerlukan langkah-langkah tertulis untuk pengumpulan, kontrol kualitas, dan tinjauan berkelanjutan.

2. Pengujian bias

Data harus diperiksa untuk "kemungkinan bias" yang dapat menyebabkan output yang tidak adil. Pengujian aktif diperlukan. Menghindari bias yang disengaja saja tidak cukup.

3. Akurasi dan cakupan

Dataset harus "relevan, cukup representatif, dan bebas kesalahan." Crawl web yang mengabaikan kelompok tertentu dapat gagal dalam uji ini.

4. Kategori data khusus

Pasal 10(5) adalah aturan yang paling langsung. Ketika sistem berisiko tinggi menggunakan kategori data khusus — kesehatan, ras, agama, politik, biometrik — Anda hanya boleh memprosesnya ketika "benar-benar diperlukan" untuk pemeriksaan bias. Anda juga harus menerapkan "pengamanan yang tepat." Scrubbing data adalah salah satu pengamanan terkuat yang dapat Anda gunakan.

Kesimpulannya: sebagian besar dataset model AI mengandung data pribadi. Pasal 10 menyatakan: gunakan minimum yang diperlukan, dengan langkah teknis yang kuat.

Lihat halaman kepatuhan hukum dan ikhtisar keamanan kami untuk detailnya.

Level Denda

EU AI Act memiliki tiga level denda. Semuanya melampaui GDPR untuk jenis pelanggaran yang sama:

Regulasi	Denda Maks.	Batas Omzet
GDPR	€20 juta	4% omzet global
EU AI Act (berisiko tinggi)	€15 juta	3% omzet global
EU AI Act (terlarang)	€35 juta	7% omzet global

Pelanggaran dataset masuk dalam level berisiko tinggi (€15 juta / 3%). Jika regulator menemukan bahwa penggunaan data pribadi tanpa pengamanan adalah tindakan terlarang, level tertinggi berlaku.

Contoh nyata: omzet €500 juta pada 3% = denda €15 juta. Omzet €5 miliar pada 3% = denda €150 juta. Itu angka nyata, bukan teori.

Mengapa Scrubbing Data Mengatasi Ini

Data yang di-scrub dengan benar berada di luar cakupan GDPR. Ini menghilangkan sebagian besar beban Pasal 10.

Aturan ketat — penanganan kategori khusus, pengujian bias, hak subjek data — hanya berlaku ketika dataset mengandung data pribadi. Hapus data tersebut terlebih dahulu. Bebannya sebagian besar hilang.

CNIL (otoritas perlindungan data Prancis) memperjelas ini pada awal 2026. Panduan AI-nya menyatakan: scrubbing data pribadi yang tidak diperlukan untuk kinerja model adalah langkah teknis utama untuk Pasal 10.

Ini bukan posisi marginal. Ini adalah posisi resmi regulator AI tertinggi EU.

Apa Arti Scrubbing Data dalam Praktik

Scrubbing dataset model AI tidak sama dengan scrubbing data produksi live. Dataset model dapat mengandung:

Dokumen dengan PII — kontrak, email, laporan, tiket dukungan
Data terstruktur — tabel pelanggan yang digunakan untuk membangun model prediktif
Data berlabel — gambar atau teks dengan anotasi yang mengandung data pribadi
Data sintetis — di mana generasinya masih dapat mempertahankan pola pribadi

Anda harus mendeteksi PII dalam semua format ini. Melewatkan satu jenis mengekspos seluruh dataset. Kontrak dengan nama dihapus tetapi alamat lengkap masih utuh akan mengajarkan model untuk menghubungkan lokasi dengan pola demografis.

API anonym.legal menangani pemrosesan batch untuk dataset AI besar. Ia mendeteksi 285+ jenis entitas dalam 48 bahasa. Untuk perusahaan AI Eropa dengan dataset multibahasa, cakupan lintas bahasa sangat penting. Celah dalam satu bahasa menciptakan risiko EU AI Act di seluruh sistem.

Untuk informasi lebih lanjut tentang deteksi entitas, lihat panduan sistem token dan referensi jenis entitas.

Langkah Praktis: Scrubbing Dataset Anda

Langkah 1: Audit terlebih dahulu

Jalankan tinjauan deteksi sebelum men-scrub apa pun. Ini memberi tahu Anda PII apa yang ada:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Respons menunjukkan semua entitas yang terdeteksi dengan jenis, posisi, dan skor. Jalankan ini di semua file Anda untuk melihat cakupan penuh sebelum memulai.

Langkah 2: Scrubbing batch

Untuk dataset besar, gunakan endpoint batch untuk memproses banyak file sekaligus:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Selesai: {result['id']} — {len(result['items'])} entitas dihapus")

Langkah 3: Simpan catatan

Pasal 10 mewajibkan catatan tertulis tentang apa yang Anda lakukan. Untuk setiap dataset, simpan:

Model deteksi dan versi yang digunakan
Jenis entitas apa yang ditemukan dan bagaimana masing-masing diganti
Jumlah entitas yang dihapus per dataset
Tanggal scrubbing dan versi dataset yang digunakan

Ini memenuhi persyaratan "praktik tata kelola dan manajemen data" dalam Pasal 10(2)(a).

Pertanyaan Umum

Apakah scrubbing menurunkan kualitas model?

Dalam sebagian besar kasus, tidak. Model belajar pola dari struktur teks, bukan detail pribadi. Nama, nomor telepon, dan alamat dapat digantikan dengan placeholder seperti [NAME] atau [PHONE], dan model masih belajar pola yang sama. Banyak tim peneliti menemukan bahwa dataset yang di-scrub menghasilkan model dengan kualitas yang sebanding. Kuncinya adalah menggunakan placeholder yang konsisten sehingga model melihat pola yang jelas.

Bagaimana jika dataset saya sangat besar?

Gunakan batch API. Ia menangani volume besar secara paralel. Halaman harga menampilkan langganan untuk skenario volume tinggi. Banyak tim memproses jutaan catatan per bulan.

Bagaimana dengan dataset non-Inggris?

API mendukung 48 bahasa. Setiap bahasa menggunakan model deteksi yang dilatih pada bahasa tersebut. Artinya Jerman, Prancis, Spanyol, Jepang, dan bahasa lainnya semuanya tercakup. Lihat FAQ untuk daftar bahasa lengkap. Dataset campuran juga didukung — Anda dapat menentukan bahasa per dokumen dalam permintaan batch.

Colorado AI Act: Dua Batas Waktu

Colorado AI Act berlaku mulai 30 Juni 2026 — lima minggu sebelum batas waktu EU. Ia menetapkan aturan serupa untuk "sistem AI berisiko tinggi" di bawah hukum negara bagian. Fokusnya terutama pada bias dan diskriminasi.

Tim yang berada di EU dan Colorado memiliki dua batas waktu sekaligus. Scrubbing dataset Anda membantu memenuhi kedua undang-undang: Pasal 10 (EU) dan aturan anti-bias Colorado. Langkah teknisnya sama.

Bertindak Sekarang

Lima bulan cukup waktu — jika Anda mulai hari ini. Tidak cukup jika Anda menunggu hingga Juni.

Jadwal praktis:

Minggu 1-2: Audit dataset Anda — temukan data pribadi apa yang ada
Minggu 3-6: Bangun dan uji pipeline scrubbing Anda
Minggu 7-10: Tulis catatan tata kelola Anda; dapatkan tinjauan hukum
Minggu 11-16: Validasi — konfirmasi dataset yang di-scrub memenuhi aturan kualitas Pasal 10
2 Agustus: Tanggal penegakan — praktik yang sesuai sudah diterapkan

API anonym.legal terintegrasi dalam pipeline Anda saat ini tanpa perubahan besar. Periksa harga untuk paket volume. FAQ mencakup pertanyaan umum tentang Pasal 10.

Gunakan daftar periksa kepatuhan GDPR untuk data yang tumpang tindih antara GDPR dan Pasal 10.

EU AI Act siap ditegakkan. Apakah organisasi Anda akan siap pada 2 Agustus?

Mulai dengan daftar periksa kepatuhan GDPR →

Batasan dan Pertanyaan Terbuka

Scrubbing data untuk regulasi AI Act masih terus berkembang. Berikut kesenjangan utama.

Ambang batas belum ditentukan. EU AI Act tidak menentukan level scrubbing mana yang "memadai." Hingga Kantor AI Eropa mengeluarkan panduan, Anda menghadapi risiko hukum. Anda mungkin tidak tahu apakah metode Anda akan memuaskan regulator.

Risiko re-identifikasi tetap ada. Penelitian menunjukkan bahwa model bahasa besar dapat mengingat dan mereproduksi konten dari dataset pelatihannya. Data yang melewati standar scrubbing sebelum pengembangan model mungkin masih dapat diekstrak. Scrubbing sebelum pengembangan tidak sepenuhnya menyelesaikan masalah ini.

Data sintetis memiliki keterbatasan. Generasi sintetis mempertahankan pola statistik, tetapi dapat menambahkan bias halus atau mengabaikan kasus tepi yang jarang. Model yang dibangun hanya dari konten sintetis mungkin berkinerja buruk pada input nyata.

Pasal 10 masih ditafsirkan. Frasa "langkah teknis yang tepat" memerlukan interpretasi. Pekerjaan awal DPA di seluruh negara anggota EU belum menetapkan standar yang jelas. Ikuti panduan EDPB dan keputusan negara anggota sepanjang 2026.

Sumber

EU AI Act, Regulasi (EU) 2024/1689, Pasal 9-17 (kewajiban AI berisiko tinggi), OJ L 2024/1689
EU AI Act, Pasal 10 — Data dan tata kelola data
Panduan dataset AI CNIL, Januari 2026
Colorado AI Act, SB 205, berlaku mulai 30 Juni 2026
Jadwal EU AI Act: praktik terlarang 2 Februari 2025; sistem berisiko tinggi 2 Agustus 2026

EU AI Act Agustus 2026: Anonimisasi Data Pelatihan untuk Memenuhi Pasal 10

Hitungan Mundur Telah Dimulai

Sistem AI Mana yang Berisiko Tinggi?

Pasal 10: Empat Aturan Utama

Level Denda

Mengapa Scrubbing Data Mengatasi Ini

Apa Arti Scrubbing Data dalam Praktik

Langkah Praktis: Scrubbing Dataset Anda

Pertanyaan Umum

Colorado AI Act: Dua Batas Waktu

Bertindak Sekarang

Batasan dan Pertanyaan Terbuka

Sumber

Artikel Terkait

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Siap untuk melindungi data Anda?

EU AI Act Agustus 2026: Anonimisasi Data Pelatihan untuk Memenuhi Pasal 10

Hitungan Mundur Telah Dimulai

Sistem AI Mana yang Berisiko Tinggi?

Pasal 10: Empat Aturan Utama

Level Denda

Mengapa Scrubbing Data Mengatasi Ini

Apa Arti Scrubbing Data dalam Praktik

Langkah Praktis: Scrubbing Dataset Anda

Pertanyaan Umum

Colorado AI Act: Dua Batas Waktu

Bertindak Sekarang

Batasan dan Pertanyaan Terbuka

Sumber

Artikel Terkait

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Siap untuk melindungi data Anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow