Kembali ke BlogGDPR & Kepatuhan

EU AI Act Agustus 2026: Anonimisasi Data Pelatihan untuk Memenuhi Pasal 10

Penegakan penuh EU AI Act dimulai 2 Agustus 2026. Denda hingga €35 juta atau 7% dari omzet global. Pasal 10 mewajibkan anonimisasi data pelatihan.

March 16, 20269 menit baca
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Hitungan Mundur Telah Dimulai

Diperbarui untuk 2026

Batas waktu EU AI Act adalah nyata. Aturan Pasal 10 berlaku mulai 2 Agustus 2026. Jika tim Anda membangun atau mengoperasikan sistem AI berisiko tinggi, Anda harus bertindak sekarang. Waktunya singkat.

Denda lebih tinggi dari GDPR. Denda maksimum adalah €35 juta atau 7% dari omzet tahunan global. Batas GDPR adalah €20 juta atau 4%. Tidak ada undang-undang AI lain yang memiliki denda lebih tinggi.

Sistem AI Mana yang Berisiko Tinggi?

AI Act mengklasifikasikan sistem berdasarkan risiko. Sistem berisiko tinggi (Lampiran III) mencakup AI yang digunakan dalam:

  • Pendidikan — akses sekolah atau penilaian siswa
  • Pekerjaan — penyaringan CV, penilaian wawancara, pemantauan karyawan
  • Layanan penting — penilaian kredit, harga asuransi, panggilan darurat
  • Penegakan hukum — prediksi kejahatan, ID biometrik
  • Layanan kesehatan — perangkat lunak perangkat medis, triase pasien
  • Infrastruktur — manajemen energi, air, atau transportasi
  • Peradilan — alat penelitian hukum, alat penentuan hukuman

Apakah Anda beroperasi di salah satu bidang ini? Pasal 10 berlaku untuk Anda.

Pasal 10: Empat Aturan Utama

Pasal 10 menetapkan aturan untuk dataset yang digunakan oleh sistem AI berisiko tinggi. Berikut empat yang paling penting.

1. Tata kelola tertulis

Dataset harus mengikuti "praktik tata kelola dan manajemen data yang tepat." Anda memerlukan langkah-langkah tertulis untuk pengumpulan, kontrol kualitas, dan tinjauan berkelanjutan.

2. Pengujian bias

Data harus diperiksa untuk "kemungkinan bias" yang dapat menyebabkan output yang tidak adil. Pengujian aktif diperlukan. Menghindari bias yang disengaja saja tidak cukup.

3. Akurasi dan cakupan

Dataset harus "relevan, cukup representatif, dan bebas kesalahan." Crawl web yang mengabaikan kelompok tertentu dapat gagal dalam uji ini.

4. Kategori data khusus

Pasal 10(5) adalah aturan yang paling langsung. Ketika sistem berisiko tinggi menggunakan kategori data khusus — kesehatan, ras, agama, politik, biometrik — Anda hanya boleh memprosesnya ketika "benar-benar diperlukan" untuk pemeriksaan bias. Anda juga harus menerapkan "pengamanan yang tepat." Scrubbing data adalah salah satu pengamanan terkuat yang dapat Anda gunakan.

Kesimpulannya: sebagian besar dataset model AI mengandung data pribadi. Pasal 10 menyatakan: gunakan minimum yang diperlukan, dengan langkah teknis yang kuat.

Lihat halaman kepatuhan hukum dan ikhtisar keamanan kami untuk detailnya.

Level Denda

EU AI Act memiliki tiga level denda. Semuanya melampaui GDPR untuk jenis pelanggaran yang sama:

RegulasiDenda Maks.Batas Omzet
GDPR€20 juta4% omzet global
EU AI Act (berisiko tinggi)€15 juta3% omzet global
EU AI Act (terlarang)€35 juta7% omzet global

Pelanggaran dataset masuk dalam level berisiko tinggi (€15 juta / 3%). Jika regulator menemukan bahwa penggunaan data pribadi tanpa pengamanan adalah tindakan terlarang, level tertinggi berlaku.

Contoh nyata: omzet €500 juta pada 3% = denda €15 juta. Omzet €5 miliar pada 3% = denda €150 juta. Itu angka nyata, bukan teori.

Mengapa Scrubbing Data Mengatasi Ini

Data yang di-scrub dengan benar berada di luar cakupan GDPR. Ini menghilangkan sebagian besar beban Pasal 10.

Aturan ketat — penanganan kategori khusus, pengujian bias, hak subjek data — hanya berlaku ketika dataset mengandung data pribadi. Hapus data tersebut terlebih dahulu. Bebannya sebagian besar hilang.

CNIL (otoritas perlindungan data Prancis) memperjelas ini pada awal 2026. Panduan AI-nya menyatakan: scrubbing data pribadi yang tidak diperlukan untuk kinerja model adalah langkah teknis utama untuk Pasal 10.

Ini bukan posisi marginal. Ini adalah posisi resmi regulator AI tertinggi EU.

Apa Arti Scrubbing Data dalam Praktik

Scrubbing dataset model AI tidak sama dengan scrubbing data produksi live. Dataset model dapat mengandung:

  • Dokumen dengan PII — kontrak, email, laporan, tiket dukungan
  • Data terstruktur — tabel pelanggan yang digunakan untuk membangun model prediktif
  • Data berlabel — gambar atau teks dengan anotasi yang mengandung data pribadi
  • Data sintetis — di mana generasinya masih dapat mempertahankan pola pribadi

Anda harus mendeteksi PII dalam semua format ini. Melewatkan satu jenis mengekspos seluruh dataset. Kontrak dengan nama dihapus tetapi alamat lengkap masih utuh akan mengajarkan model untuk menghubungkan lokasi dengan pola demografis.

API anonym.legal menangani pemrosesan batch untuk dataset AI besar. Ia mendeteksi 285+ jenis entitas dalam 48 bahasa. Untuk perusahaan AI Eropa dengan dataset multibahasa, cakupan lintas bahasa sangat penting. Celah dalam satu bahasa menciptakan risiko EU AI Act di seluruh sistem.

Untuk informasi lebih lanjut tentang deteksi entitas, lihat panduan sistem token dan referensi jenis entitas.

Langkah Praktis: Scrubbing Dataset Anda

Langkah 1: Audit terlebih dahulu

Jalankan tinjauan deteksi sebelum men-scrub apa pun. Ini memberi tahu Anda PII apa yang ada:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Respons menunjukkan semua entitas yang terdeteksi dengan jenis, posisi, dan skor. Jalankan ini di semua file Anda untuk melihat cakupan penuh sebelum memulai.

Langkah 2: Scrubbing batch

Untuk dataset besar, gunakan endpoint batch untuk memproses banyak file sekaligus:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Selesai: {result['id']} — {len(result['items'])} entitas dihapus")

Langkah 3: Simpan catatan

Pasal 10 mewajibkan catatan tertulis tentang apa yang Anda lakukan. Untuk setiap dataset, simpan:

  • Model deteksi dan versi yang digunakan
  • Jenis entitas apa yang ditemukan dan bagaimana masing-masing diganti
  • Jumlah entitas yang dihapus per dataset
  • Tanggal scrubbing dan versi dataset yang digunakan

Ini memenuhi persyaratan "praktik tata kelola dan manajemen data" dalam Pasal 10(2)(a).

Pertanyaan Umum

Apakah scrubbing menurunkan kualitas model?

Dalam sebagian besar kasus, tidak. Model belajar pola dari struktur teks, bukan detail pribadi. Nama, nomor telepon, dan alamat dapat digantikan dengan placeholder seperti [NAME] atau [PHONE], dan model masih belajar pola yang sama. Banyak tim peneliti menemukan bahwa dataset yang di-scrub menghasilkan model dengan kualitas yang sebanding. Kuncinya adalah menggunakan placeholder yang konsisten sehingga model melihat pola yang jelas.

Bagaimana jika dataset saya sangat besar?

Gunakan batch API. Ia menangani volume besar secara paralel. Halaman harga menampilkan langganan untuk skenario volume tinggi. Banyak tim memproses jutaan catatan per bulan.

Bagaimana dengan dataset non-Inggris?

API mendukung 48 bahasa. Setiap bahasa menggunakan model deteksi yang dilatih pada bahasa tersebut. Artinya Jerman, Prancis, Spanyol, Jepang, dan bahasa lainnya semuanya tercakup. Lihat FAQ untuk daftar bahasa lengkap. Dataset campuran juga didukung — Anda dapat menentukan bahasa per dokumen dalam permintaan batch.

Colorado AI Act: Dua Batas Waktu

Colorado AI Act berlaku mulai 30 Juni 2026 — lima minggu sebelum batas waktu EU. Ia menetapkan aturan serupa untuk "sistem AI berisiko tinggi" di bawah hukum negara bagian. Fokusnya terutama pada bias dan diskriminasi.

Tim yang berada di EU dan Colorado memiliki dua batas waktu sekaligus. Scrubbing dataset Anda membantu memenuhi kedua undang-undang: Pasal 10 (EU) dan aturan anti-bias Colorado. Langkah teknisnya sama.

Bertindak Sekarang

Lima bulan cukup waktu — jika Anda mulai hari ini. Tidak cukup jika Anda menunggu hingga Juni.

Jadwal praktis:

  1. Minggu 1-2: Audit dataset Anda — temukan data pribadi apa yang ada
  2. Minggu 3-6: Bangun dan uji pipeline scrubbing Anda
  3. Minggu 7-10: Tulis catatan tata kelola Anda; dapatkan tinjauan hukum
  4. Minggu 11-16: Validasi — konfirmasi dataset yang di-scrub memenuhi aturan kualitas Pasal 10
  5. 2 Agustus: Tanggal penegakan — praktik yang sesuai sudah diterapkan

API anonym.legal terintegrasi dalam pipeline Anda saat ini tanpa perubahan besar. Periksa harga untuk paket volume. FAQ mencakup pertanyaan umum tentang Pasal 10.

Gunakan daftar periksa kepatuhan GDPR untuk data yang tumpang tindih antara GDPR dan Pasal 10.

EU AI Act siap ditegakkan. Apakah organisasi Anda akan siap pada 2 Agustus?

Mulai dengan daftar periksa kepatuhan GDPR →

Batasan dan Pertanyaan Terbuka

Scrubbing data untuk regulasi AI Act masih terus berkembang. Berikut kesenjangan utama.

Ambang batas belum ditentukan. EU AI Act tidak menentukan level scrubbing mana yang "memadai." Hingga Kantor AI Eropa mengeluarkan panduan, Anda menghadapi risiko hukum. Anda mungkin tidak tahu apakah metode Anda akan memuaskan regulator.

Risiko re-identifikasi tetap ada. Penelitian menunjukkan bahwa model bahasa besar dapat mengingat dan mereproduksi konten dari dataset pelatihannya. Data yang melewati standar scrubbing sebelum pengembangan model mungkin masih dapat diekstrak. Scrubbing sebelum pengembangan tidak sepenuhnya menyelesaikan masalah ini.

Data sintetis memiliki keterbatasan. Generasi sintetis mempertahankan pola statistik, tetapi dapat menambahkan bias halus atau mengabaikan kasus tepi yang jarang. Model yang dibangun hanya dari konten sintetis mungkin berkinerja buruk pada input nyata.

Pasal 10 masih ditafsirkan. Frasa "langkah teknis yang tepat" memerlukan interpretasi. Pekerjaan awal DPA di seluruh negara anggota EU belum menetapkan standar yang jelas. Ikuti panduan EDPB dan keputusan negara anggota sepanjang 2026.

Sumber

  • EU AI Act, Regulasi (EU) 2024/1689, Pasal 9-17 (kewajiban AI berisiko tinggi), OJ L 2024/1689
  • EU AI Act, Pasal 10 — Data dan tata kelola data
  • Panduan dataset AI CNIL, Januari 2026
  • Colorado AI Act, SB 205, berlaku mulai 30 Juni 2026
  • Jadwal EU AI Act: praktik terlarang 2 Februari 2025; sistem berisiko tinggi 2 Agustus 2026

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.