Kiraan Detik Telah Bermula
Dikemas kini untuk 2026
Tarikh akhir Akta AI EU adalah nyata. Peraturan Artikel 10 terpakai dari 2 Ogos 2026. Jika pasukan anda membina atau menjalankan sistem AI berisiko tinggi, bertindak sekarang. Masa semakin singkat.
Denda melebihi GDPR. Denda maksimum ialah €35 juta atau 7% daripada pusing ganti tahunan global. GDPR mengehadkan pada €20 juta atau 4%. Tiada undang-undang AI lain yang mempunyai denda lebih tinggi.
Sistem AI Mana yang Berisiko Tinggi?
Akta AI menyusun sistem mengikut risiko. Sistem berisiko tinggi (Lampiran III) meliputi AI yang digunakan dalam:
- Pendidikan - akses sekolah atau penilaian pelajar
- Pekerjaan - penyaringan CV, penilaian temu duga, pemantauan pekerja
- Perkhidmatan utama - penilaian kredit, harga insurans, penghantaran kecemasan
- Penguatkuasaan undang-undang - ramalan jenayah, ID biometrik
- Penjagaan kesihatan - perisian peranti perubatan, triaj pesakit
- Infrastruktur - pengurusan tenaga, air, atau pengangkutan
- Keadilan - alat penyelidikan undang-undang, alat hukuman
Bekerja dalam mana-mana bidang ini? Artikel 10 terpakai kepada anda.
Artikel 10: Empat Peraturan Utama
Artikel 10 menetapkan peraturan untuk set data yang digunakan oleh sistem AI berisiko tinggi. Berikut adalah empat peraturan utama.
1. Tadbir Urus Bertulis
Set data mesti mengikuti "amalan tadbir urus dan pengurusan data yang sesuai." Anda memerlukan langkah bertulis untuk pengumpulan, pemeriksaan kualiti, dan semakan berterusan.
2. Ujian Berat Sebelah
Rekod mesti diperiksa untuk "kemungkinan berat sebelah" yang boleh menyebabkan output yang tidak adil. Ujian aktif diperlukan. Mengelakkan berat sebelah yang disengajakan tidak mencukupi.
3. Ketepatan dan Liputan
Set data mesti "relevan, cukup mewakili, dan bebas dari kesilapan." Perangkak web yang terlepas kumpulan tertentu mungkin gagal ujian ini.
4. Jenis Rekod Khas
Artikel 10(5) adalah peraturan paling langsung. Apabila sistem berisiko tinggi menggunakan rekod kategori khas - kesihatan, bangsa, agama, politik, biometrik - anda hanya boleh memprosesnya apabila "benar-benar perlu" untuk pemeriksaan berat sebelah. Anda juga mesti menggunakan "penjagaan yang sesuai." Penggoresan data adalah salah satu penjagaan terkuat yang boleh anda gunakan.
Kesimpulannya: kebanyakan set data model AI menyimpan rekod peribadi. Artikel 10 menyatakan gunakan minimum yang diperlukan, dengan penjagaan teknikal yang kukuh.
Lihat halaman pematuhan undang-undang dan gambaran keselamatan kami untuk butiran.
Tingkat Penalti
Akta AI EU mempunyai tiga tingkat denda. Semuanya melebihi GDPR untuk jenis pelanggaran yang sama:
| Peraturan | Denda Maks | Had Pusing Ganti |
|---|---|---|
| GDPR | €20 juta | 4% pusing ganti global |
| Akta AI EU (berisiko tinggi) | €15 juta | 3% pusing ganti global |
| Akta AI EU (dilarang) | €35 juta | 7% pusing ganti global |
Pelanggaran set data termasuk dalam tingkat berisiko tinggi (€15 juta / 3%). Jika pengawal selia mendapati bahawa penggunaan rekod peribadi tanpa penjagaan adalah tindakan yang dilarang, tingkat tertinggi terpakai.
Contoh sebenar: pusing ganti €500 juta pada 3% = denda €15 juta. Pusing ganti €5 bilion pada 3% = denda €150 juta. Ini adalah nombor sebenar, bukan teori.
Mengapa Penggoresan Data Menyelesaikan Ini
Rekod yang digores dengan betul berada di luar skop GDPR. Ini menghapuskan sebahagian besar beban Artikel 10.
Peraturan keras - pengendalian kategori khas, pemeriksaan berat sebelah, hak subjek data - hanya terpakai apabila set data menyimpan rekod peribadi. Buang rekod tersebut dahulu. Beban sebahagian besarnya hilang.
CNIL (pihak berkuasa data Perancis) menjelaskan perkara ini pada awal 2026. Panduan AI mereka menyatakan ini: penggoresan data rekod peribadi yang tidak diperlukan untuk prestasi model adalah langkah teknikal utama untuk Artikel 10.
Ini bukan pandangan fringe. Ia adalah pendirian arus perdana badan kawal selia AI EU yang teratas.
Apa Makna Penggoresan Data dalam Amalan
Menggoreng set data model AI tidak sama dengan menggoreng rekod pengeluaran langsung. Set data model boleh menyimpan:
- Dokumen dengan PII - kontrak, e-mel, laporan, tiket sokongan
- Rekod berstruktur - jadual pelanggan yang digunakan untuk membina model ramalan
- Kandungan berlabel - imej atau teks dengan nota yang merangkumi data peribadi
- Rekod sintetik - di mana penjanaan masih boleh memelihara corak peribadi
Anda mesti mengesan PII dalam semua format ini. Terlepas satu jenis mendedahkan keseluruhan set data. Kontrak dengan nama dibuang tetapi alamat penuh masih utuh akan mengajar model untuk mengaitkan lokasi dengan corak demografi.
API anonym.legal mengendalikan pemprosesan kelompok untuk set data AI besar. Ia mengesan 285+ jenis entiti merentas 48 bahasa. Untuk syarikat AI Eropah dengan set data berbilang bahasa, liputan merentas bahasa adalah kritikal. Jurang dalam satu bahasa mewujudkan risiko Akta AI EU merentas keseluruhan sistem.
Untuk maklumat lanjut tentang pengesanan entiti, lihat panduan sistem token dan rujukan jenis entiti.
Langkah Praktikal: Menggoreng Set Data Anda
Langkah 1: Audit dahulu
Jalankan laluan pengesanan sebelum anda menggoreng apa-apa. Ini memberitahu anda PII apa yang ada:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Respons menyenaraikan setiap entiti yang dikesan dengan jenis, kedudukan, dan skornya. Jalankan ini merentas semua fail anda untuk melihat skop penuh sebelum anda bermula.
Langkah 2: Goreng kelompok
Untuk set data besar, gunakan titik akhir kelompok untuk memproses banyak fail sekaligus:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Selesai: {result['id']} - {len(result['items'])} entiti dibuang")
Langkah 3: Simpan rekod
Artikel 10 memerlukan rekod bertulis tentang apa yang anda lakukan. Untuk setiap set data, simpan:
- Model dan versi pengesanan yang digunakan
- Jenis entiti yang ditemui dan cara setiap satu diganti
- Bilangan entiti yang dibuang setiap set data
- Tarikh penggoresan dan versi set data yang digunakan
Ini memenuhi keperluan "amalan tadbir urus dan pengurusan data" dalam Artikel 10(2)(a).
Soalan Lazim
Adakah penggoresan merosakkan kualiti model?
Dalam kebanyakan kes, tidak. Model belajar corak daripada struktur teks, bukan butiran peribadi. Nama, nombor telefon, dan alamat boleh diganti dengan pemegang tempat seperti [NAME] atau [PHONE] dan model masih belajar corak yang sama. Ramai pasukan penyelidik mendapati set data yang digores menghasilkan model berkualiti setara. Kuncinya adalah menggunakan pemegang tempat yang konsisten supaya model melihat corak yang jelas.
Bagaimana jika set data saya sangat besar?
Gunakan API kelompok. Ia mengendalikan jumlah besar secara selari. Halaman harga menunjukkan pelan untuk kes penggunaan volume tinggi. Ramai pasukan memproses jutaan rekod setiap bulan.
Bagaimana dengan set data bukan Bahasa Inggeris?
API menyokong 48 bahasa. Setiap bahasa menggunakan model pengesanan yang dilatih dalam bahasa tersebut. Ini bermakna Bahasa Jerman, Perancis, Sepanyol, Jepun, dan bahasa lain semuanya diliputi. Lihat Soalan Lazim untuk senarai bahasa penuh. Set data berbilang bahasa juga disokong - anda boleh menentukan bahasa setiap dokumen dalam permintaan kelompok.
Akta AI Colorado: Dua Tarikh Akhir
Akta AI Colorado berkuat kuasa pada 30 Jun 2026 - lima minggu sebelum tarikh akhir EU. Ia menetapkan peraturan yang sama untuk "sistem AI berisiko tinggi" di bawah undang-undang negeri. Fokus utama adalah berat sebelah dan diskriminasi.
Passukan di EU dan Colorado menghadapi dua tarikh akhir sekaligus. Menggoreng set data anda membantu memenuhi kedua-dua undang-undang: Artikel 10 (EU) dan peraturan anti-berat sebelah Colorado. Langkah teknikal adalah sama.
Bertindak Sekarang
Lima bulan adalah masa yang mencukupi - jika anda bermula hari ini. Ia tidak mencukupi jika anda menunggu hingga Jun.
Garis masa praktikal:
- Minggu 1-2: Audit set data anda - ketahui rekod peribadi apa yang ada
- Minggu 3-6: Bina dan uji saluran paip penggoresan anda
- Minggu 7-10: Tulis rekod tadbir urus anda; dapatkan semakan undang-undang
- Minggu 11-16: Sahkan - pastikan set data yang digores memenuhi peraturan kualiti Artikel 10
- 2 Ogos: Tarikh penguatkuasaan - amalan yang mematuhi sudah pada tempatnya
API anonym.legal disambungkan ke saluran paip semasa anda tanpa perubahan besar. Semak harga untuk pelan volume. Soalan Lazim meliputi soalan Artikel 10 yang biasa.
Gunakan senarai semak pematuhan GDPR untuk rekod yang bertindih antara GDPR dan Artikel 10.
Akta AI EU bersedia untuk menguatkuasakan. Adakah organisasi anda akan bersedia menjelang 2 Ogos?
Mulakan dengan senarai semak pematuhan GDPR
Had dan Soalan Terbuka
Penggoresan data untuk peraturan Akta AI masih berkembang. Berikut adalah jurang utama.
Ambang tidak ditakrifkan. Akta AI EU tidak menyatakan tahap penggoresan yang "mencukupi." Sehingga Pejabat AI Eropah mengeluarkan panduan, anda menghadapi risiko undang-undang. Anda mungkin tidak tahu sama ada kaedah anda akan memuaskan pengawal selia.
Risiko pengecaman semula kekal. Penyelidikan menunjukkan model bahasa besar boleh menghafal dan memainkan semula kandungan daripada set data mereka. Rekod yang lulus piawaian penggoresan sebelum pembangunan model masih boleh diekstrak. Penggoresan sebelum pembangunan tidak menyelesaikan masalah ini sepenuhnya.
Rekod sintetik mempunyai had. Penjanaan sintetik menyimpan corak statistik tetapi boleh menambah berat sebelah halus atau terlepas kes tepi yang jarang. Model yang dibina hanya pada kandungan sintetik mungkin berprestasi buruk pada input sebenar.
Artikel 10 masih ditafsirkan. Frasa "langkah teknikal yang sesuai" memerlukan tafsiran. Kerja DPA awal merentas negeri anggota EU belum menyelesaikan piawaian yang jelas. Pantau panduan EDPB dan keputusan negeri anggota sepanjang 2026.
Sumber
- Akta AI EU, Peraturan (EU) 2024/1689, Artikel 9-17 (kewajipan AI berisiko tinggi), OJ L 2024/1689
- Akta AI EU, Artikel 10 - Data dan tadbir urus data
- Panduan set data AI CNIL, Januari 2026
- Akta AI Colorado, SB 205, berkuat kuasa 30 Jun 2026
- Garis masa Akta AI EU: amalan yang dilarang 2 Februari 2025; sistem berisiko tinggi 2 Ogos 2026