Kiraan Detik Telah Bermula

Dikemas kini untuk 2026

Tarikh akhir Akta AI EU adalah nyata. Peraturan Artikel 10 terpakai dari 2 Ogos 2026. Jika pasukan anda membina atau menjalankan sistem AI berisiko tinggi, bertindak sekarang. Masa semakin singkat.

Denda melebihi GDPR. Denda maksimum ialah €35 juta atau 7% daripada pusing ganti tahunan global. GDPR mengehadkan pada €20 juta atau 4%. Tiada undang-undang AI lain yang mempunyai denda lebih tinggi.

Sistem AI Mana yang Berisiko Tinggi?

Akta AI menyusun sistem mengikut risiko. Sistem berisiko tinggi (Lampiran III) meliputi AI yang digunakan dalam:

Pendidikan - akses sekolah atau penilaian pelajar
Pekerjaan - penyaringan CV, penilaian temu duga, pemantauan pekerja
Perkhidmatan utama - penilaian kredit, harga insurans, penghantaran kecemasan
Penguatkuasaan undang-undang - ramalan jenayah, ID biometrik
Penjagaan kesihatan - perisian peranti perubatan, triaj pesakit
Infrastruktur - pengurusan tenaga, air, atau pengangkutan
Keadilan - alat penyelidikan undang-undang, alat hukuman

Bekerja dalam mana-mana bidang ini? Artikel 10 terpakai kepada anda.

Artikel 10: Empat Peraturan Utama

Artikel 10 menetapkan peraturan untuk set data yang digunakan oleh sistem AI berisiko tinggi. Berikut adalah empat peraturan utama.

1. Tadbir Urus Bertulis

Set data mesti mengikuti "amalan tadbir urus dan pengurusan data yang sesuai." Anda memerlukan langkah bertulis untuk pengumpulan, pemeriksaan kualiti, dan semakan berterusan.

2. Ujian Berat Sebelah

Rekod mesti diperiksa untuk "kemungkinan berat sebelah" yang boleh menyebabkan output yang tidak adil. Ujian aktif diperlukan. Mengelakkan berat sebelah yang disengajakan tidak mencukupi.

3. Ketepatan dan Liputan

Set data mesti "relevan, cukup mewakili, dan bebas dari kesilapan." Perangkak web yang terlepas kumpulan tertentu mungkin gagal ujian ini.

4. Jenis Rekod Khas

Artikel 10(5) adalah peraturan paling langsung. Apabila sistem berisiko tinggi menggunakan rekod kategori khas - kesihatan, bangsa, agama, politik, biometrik - anda hanya boleh memprosesnya apabila "benar-benar perlu" untuk pemeriksaan berat sebelah. Anda juga mesti menggunakan "penjagaan yang sesuai." Penggoresan data adalah salah satu penjagaan terkuat yang boleh anda gunakan.

Kesimpulannya: kebanyakan set data model AI menyimpan rekod peribadi. Artikel 10 menyatakan gunakan minimum yang diperlukan, dengan penjagaan teknikal yang kukuh.

Lihat halaman pematuhan undang-undang dan gambaran keselamatan kami untuk butiran.

Tingkat Penalti

Akta AI EU mempunyai tiga tingkat denda. Semuanya melebihi GDPR untuk jenis pelanggaran yang sama:

Peraturan	Denda Maks	Had Pusing Ganti
GDPR	€20 juta	4% pusing ganti global
Akta AI EU (berisiko tinggi)	€15 juta	3% pusing ganti global
Akta AI EU (dilarang)	€35 juta	7% pusing ganti global

Pelanggaran set data termasuk dalam tingkat berisiko tinggi (€15 juta / 3%). Jika pengawal selia mendapati bahawa penggunaan rekod peribadi tanpa penjagaan adalah tindakan yang dilarang, tingkat tertinggi terpakai.

Contoh sebenar: pusing ganti €500 juta pada 3% = denda €15 juta. Pusing ganti €5 bilion pada 3% = denda €150 juta. Ini adalah nombor sebenar, bukan teori.

Mengapa Penggoresan Data Menyelesaikan Ini

Rekod yang digores dengan betul berada di luar skop GDPR. Ini menghapuskan sebahagian besar beban Artikel 10.

Peraturan keras - pengendalian kategori khas, pemeriksaan berat sebelah, hak subjek data - hanya terpakai apabila set data menyimpan rekod peribadi. Buang rekod tersebut dahulu. Beban sebahagian besarnya hilang.

CNIL (pihak berkuasa data Perancis) menjelaskan perkara ini pada awal 2026. Panduan AI mereka menyatakan ini: penggoresan data rekod peribadi yang tidak diperlukan untuk prestasi model adalah langkah teknikal utama untuk Artikel 10.

Ini bukan pandangan fringe. Ia adalah pendirian arus perdana badan kawal selia AI EU yang teratas.

Apa Makna Penggoresan Data dalam Amalan

Menggoreng set data model AI tidak sama dengan menggoreng rekod pengeluaran langsung. Set data model boleh menyimpan:

Dokumen dengan PII - kontrak, e-mel, laporan, tiket sokongan
Rekod berstruktur - jadual pelanggan yang digunakan untuk membina model ramalan
Kandungan berlabel - imej atau teks dengan nota yang merangkumi data peribadi
Rekod sintetik - di mana penjanaan masih boleh memelihara corak peribadi

Anda mesti mengesan PII dalam semua format ini. Terlepas satu jenis mendedahkan keseluruhan set data. Kontrak dengan nama dibuang tetapi alamat penuh masih utuh akan mengajar model untuk mengaitkan lokasi dengan corak demografi.

API anonym.legal mengendalikan pemprosesan kelompok untuk set data AI besar. Ia mengesan 285+ jenis entiti merentas 48 bahasa. Untuk syarikat AI Eropah dengan set data berbilang bahasa, liputan merentas bahasa adalah kritikal. Jurang dalam satu bahasa mewujudkan risiko Akta AI EU merentas keseluruhan sistem.

Untuk maklumat lanjut tentang pengesanan entiti, lihat panduan sistem token dan rujukan jenis entiti.

Langkah Praktikal: Menggoreng Set Data Anda

Langkah 1: Audit dahulu

Jalankan laluan pengesanan sebelum anda menggoreng apa-apa. Ini memberitahu anda PII apa yang ada:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Respons menyenaraikan setiap entiti yang dikesan dengan jenis, kedudukan, dan skornya. Jalankan ini merentas semua fail anda untuk melihat skop penuh sebelum anda bermula.

Langkah 2: Goreng kelompok

Untuk set data besar, gunakan titik akhir kelompok untuk memproses banyak fail sekaligus:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Selesai: {result['id']} - {len(result['items'])} entiti dibuang")

Langkah 3: Simpan rekod

Artikel 10 memerlukan rekod bertulis tentang apa yang anda lakukan. Untuk setiap set data, simpan:

Model dan versi pengesanan yang digunakan
Jenis entiti yang ditemui dan cara setiap satu diganti
Bilangan entiti yang dibuang setiap set data
Tarikh penggoresan dan versi set data yang digunakan

Ini memenuhi keperluan "amalan tadbir urus dan pengurusan data" dalam Artikel 10(2)(a).

Soalan Lazim

Adakah penggoresan merosakkan kualiti model?

Dalam kebanyakan kes, tidak. Model belajar corak daripada struktur teks, bukan butiran peribadi. Nama, nombor telefon, dan alamat boleh diganti dengan pemegang tempat seperti [NAME] atau [PHONE] dan model masih belajar corak yang sama. Ramai pasukan penyelidik mendapati set data yang digores menghasilkan model berkualiti setara. Kuncinya adalah menggunakan pemegang tempat yang konsisten supaya model melihat corak yang jelas.

Bagaimana jika set data saya sangat besar?

Gunakan API kelompok. Ia mengendalikan jumlah besar secara selari. Halaman harga menunjukkan pelan untuk kes penggunaan volume tinggi. Ramai pasukan memproses jutaan rekod setiap bulan.

Bagaimana dengan set data bukan Bahasa Inggeris?

API menyokong 48 bahasa. Setiap bahasa menggunakan model pengesanan yang dilatih dalam bahasa tersebut. Ini bermakna Bahasa Jerman, Perancis, Sepanyol, Jepun, dan bahasa lain semuanya diliputi. Lihat Soalan Lazim untuk senarai bahasa penuh. Set data berbilang bahasa juga disokong - anda boleh menentukan bahasa setiap dokumen dalam permintaan kelompok.

Akta AI Colorado: Dua Tarikh Akhir

Akta AI Colorado berkuat kuasa pada 30 Jun 2026 - lima minggu sebelum tarikh akhir EU. Ia menetapkan peraturan yang sama untuk "sistem AI berisiko tinggi" di bawah undang-undang negeri. Fokus utama adalah berat sebelah dan diskriminasi.

Passukan di EU dan Colorado menghadapi dua tarikh akhir sekaligus. Menggoreng set data anda membantu memenuhi kedua-dua undang-undang: Artikel 10 (EU) dan peraturan anti-berat sebelah Colorado. Langkah teknikal adalah sama.

Bertindak Sekarang

Lima bulan adalah masa yang mencukupi - jika anda bermula hari ini. Ia tidak mencukupi jika anda menunggu hingga Jun.

Garis masa praktikal:

Minggu 1-2: Audit set data anda - ketahui rekod peribadi apa yang ada
Minggu 3-6: Bina dan uji saluran paip penggoresan anda
Minggu 7-10: Tulis rekod tadbir urus anda; dapatkan semakan undang-undang
Minggu 11-16: Sahkan - pastikan set data yang digores memenuhi peraturan kualiti Artikel 10
2 Ogos: Tarikh penguatkuasaan - amalan yang mematuhi sudah pada tempatnya

API anonym.legal disambungkan ke saluran paip semasa anda tanpa perubahan besar. Semak harga untuk pelan volume. Soalan Lazim meliputi soalan Artikel 10 yang biasa.

Gunakan senarai semak pematuhan GDPR untuk rekod yang bertindih antara GDPR dan Artikel 10.

Akta AI EU bersedia untuk menguatkuasakan. Adakah organisasi anda akan bersedia menjelang 2 Ogos?

Mulakan dengan senarai semak pematuhan GDPR

Had dan Soalan Terbuka

Penggoresan data untuk peraturan Akta AI masih berkembang. Berikut adalah jurang utama.

Ambang tidak ditakrifkan. Akta AI EU tidak menyatakan tahap penggoresan yang "mencukupi." Sehingga Pejabat AI Eropah mengeluarkan panduan, anda menghadapi risiko undang-undang. Anda mungkin tidak tahu sama ada kaedah anda akan memuaskan pengawal selia.

Risiko pengecaman semula kekal. Penyelidikan menunjukkan model bahasa besar boleh menghafal dan memainkan semula kandungan daripada set data mereka. Rekod yang lulus piawaian penggoresan sebelum pembangunan model masih boleh diekstrak. Penggoresan sebelum pembangunan tidak menyelesaikan masalah ini sepenuhnya.

Rekod sintetik mempunyai had. Penjanaan sintetik menyimpan corak statistik tetapi boleh menambah berat sebelah halus atau terlepas kes tepi yang jarang. Model yang dibina hanya pada kandungan sintetik mungkin berprestasi buruk pada input sebenar.

Artikel 10 masih ditafsirkan. Frasa "langkah teknikal yang sesuai" memerlukan tafsiran. Kerja DPA awal merentas negeri anggota EU belum menyelesaikan piawaian yang jelas. Pantau panduan EDPB dan keputusan negeri anggota sepanjang 2026.

Sumber

Akta AI EU, Peraturan (EU) 2024/1689, Artikel 9-17 (kewajipan AI berisiko tinggi), OJ L 2024/1689
Akta AI EU, Artikel 10 - Data dan tadbir urus data
Panduan set data AI CNIL, Januari 2026
Akta AI Colorado, SB 205, berkuat kuasa 30 Jun 2026
Garis masa Akta AI EU: amalan yang dilarang 2 Februari 2025; sistem berisiko tinggi 2 Ogos 2026

Akta AI EU Ogos 2026: Menganonim Data Latihan untuk Memenuhi Artikel 10

Kiraan Detik Telah Bermula

Sistem AI Mana yang Berisiko Tinggi?

Artikel 10: Empat Peraturan Utama

Tingkat Penalti

Mengapa Penggoresan Data Menyelesaikan Ini

Apa Makna Penggoresan Data dalam Amalan

Langkah Praktikal: Menggoreng Set Data Anda

Soalan Lazim

Akta AI Colorado: Dua Tarikh Akhir

Bertindak Sekarang

Had dan Soalan Terbuka

Sumber

Artikel Berkaitan

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Sedia untuk melindungi data anda?

Akta AI EU Ogos 2026: Menganonim Data Latihan untuk Memenuhi Artikel 10

Kiraan Detik Telah Bermula

Sistem AI Mana yang Berisiko Tinggi?

Artikel 10: Empat Peraturan Utama

Tingkat Penalti

Mengapa Penggoresan Data Menyelesaikan Ini

Apa Makna Penggoresan Data dalam Amalan

Langkah Praktikal: Menggoreng Set Data Anda

Soalan Lazim

Akta AI Colorado: Dua Tarikh Akhir

Bertindak Sekarang

Had dan Soalan Terbuka

Sumber

Artikel Berkaitan

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow