Kembali ke BlogGDPR & Pematuhan

Akta AI EU Ogos 2026: Menganonim Data Latihan untuk Memenuhi Artikel 10

Penguatkuasaan penuh Akta AI EU bermula 2 Ogos 2026. Penalti sehingga €35 juta atau 7% daripada pusing ganti global. Artikel 10 memerlukan anonimasi data latihan.

March 16, 20269 min baca
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Kiraan Detik Telah Bermula

Dikemas kini untuk 2026

Tarikh akhir Akta AI EU adalah nyata. Peraturan Artikel 10 terpakai dari 2 Ogos 2026. Jika pasukan anda membina atau menjalankan sistem AI berisiko tinggi, bertindak sekarang. Masa semakin singkat.

Denda melebihi GDPR. Denda maksimum ialah €35 juta atau 7% daripada pusing ganti tahunan global. GDPR mengehadkan pada €20 juta atau 4%. Tiada undang-undang AI lain yang mempunyai denda lebih tinggi.

Sistem AI Mana yang Berisiko Tinggi?

Akta AI menyusun sistem mengikut risiko. Sistem berisiko tinggi (Lampiran III) meliputi AI yang digunakan dalam:

  • Pendidikan - akses sekolah atau penilaian pelajar
  • Pekerjaan - penyaringan CV, penilaian temu duga, pemantauan pekerja
  • Perkhidmatan utama - penilaian kredit, harga insurans, penghantaran kecemasan
  • Penguatkuasaan undang-undang - ramalan jenayah, ID biometrik
  • Penjagaan kesihatan - perisian peranti perubatan, triaj pesakit
  • Infrastruktur - pengurusan tenaga, air, atau pengangkutan
  • Keadilan - alat penyelidikan undang-undang, alat hukuman

Bekerja dalam mana-mana bidang ini? Artikel 10 terpakai kepada anda.

Artikel 10: Empat Peraturan Utama

Artikel 10 menetapkan peraturan untuk set data yang digunakan oleh sistem AI berisiko tinggi. Berikut adalah empat peraturan utama.

1. Tadbir Urus Bertulis

Set data mesti mengikuti "amalan tadbir urus dan pengurusan data yang sesuai." Anda memerlukan langkah bertulis untuk pengumpulan, pemeriksaan kualiti, dan semakan berterusan.

2. Ujian Berat Sebelah

Rekod mesti diperiksa untuk "kemungkinan berat sebelah" yang boleh menyebabkan output yang tidak adil. Ujian aktif diperlukan. Mengelakkan berat sebelah yang disengajakan tidak mencukupi.

3. Ketepatan dan Liputan

Set data mesti "relevan, cukup mewakili, dan bebas dari kesilapan." Perangkak web yang terlepas kumpulan tertentu mungkin gagal ujian ini.

4. Jenis Rekod Khas

Artikel 10(5) adalah peraturan paling langsung. Apabila sistem berisiko tinggi menggunakan rekod kategori khas - kesihatan, bangsa, agama, politik, biometrik - anda hanya boleh memprosesnya apabila "benar-benar perlu" untuk pemeriksaan berat sebelah. Anda juga mesti menggunakan "penjagaan yang sesuai." Penggoresan data adalah salah satu penjagaan terkuat yang boleh anda gunakan.

Kesimpulannya: kebanyakan set data model AI menyimpan rekod peribadi. Artikel 10 menyatakan gunakan minimum yang diperlukan, dengan penjagaan teknikal yang kukuh.

Lihat halaman pematuhan undang-undang dan gambaran keselamatan kami untuk butiran.

Tingkat Penalti

Akta AI EU mempunyai tiga tingkat denda. Semuanya melebihi GDPR untuk jenis pelanggaran yang sama:

PeraturanDenda MaksHad Pusing Ganti
GDPR€20 juta4% pusing ganti global
Akta AI EU (berisiko tinggi)€15 juta3% pusing ganti global
Akta AI EU (dilarang)€35 juta7% pusing ganti global

Pelanggaran set data termasuk dalam tingkat berisiko tinggi (€15 juta / 3%). Jika pengawal selia mendapati bahawa penggunaan rekod peribadi tanpa penjagaan adalah tindakan yang dilarang, tingkat tertinggi terpakai.

Contoh sebenar: pusing ganti €500 juta pada 3% = denda €15 juta. Pusing ganti €5 bilion pada 3% = denda €150 juta. Ini adalah nombor sebenar, bukan teori.

Mengapa Penggoresan Data Menyelesaikan Ini

Rekod yang digores dengan betul berada di luar skop GDPR. Ini menghapuskan sebahagian besar beban Artikel 10.

Peraturan keras - pengendalian kategori khas, pemeriksaan berat sebelah, hak subjek data - hanya terpakai apabila set data menyimpan rekod peribadi. Buang rekod tersebut dahulu. Beban sebahagian besarnya hilang.

CNIL (pihak berkuasa data Perancis) menjelaskan perkara ini pada awal 2026. Panduan AI mereka menyatakan ini: penggoresan data rekod peribadi yang tidak diperlukan untuk prestasi model adalah langkah teknikal utama untuk Artikel 10.

Ini bukan pandangan fringe. Ia adalah pendirian arus perdana badan kawal selia AI EU yang teratas.

Apa Makna Penggoresan Data dalam Amalan

Menggoreng set data model AI tidak sama dengan menggoreng rekod pengeluaran langsung. Set data model boleh menyimpan:

  • Dokumen dengan PII - kontrak, e-mel, laporan, tiket sokongan
  • Rekod berstruktur - jadual pelanggan yang digunakan untuk membina model ramalan
  • Kandungan berlabel - imej atau teks dengan nota yang merangkumi data peribadi
  • Rekod sintetik - di mana penjanaan masih boleh memelihara corak peribadi

Anda mesti mengesan PII dalam semua format ini. Terlepas satu jenis mendedahkan keseluruhan set data. Kontrak dengan nama dibuang tetapi alamat penuh masih utuh akan mengajar model untuk mengaitkan lokasi dengan corak demografi.

API anonym.legal mengendalikan pemprosesan kelompok untuk set data AI besar. Ia mengesan 285+ jenis entiti merentas 48 bahasa. Untuk syarikat AI Eropah dengan set data berbilang bahasa, liputan merentas bahasa adalah kritikal. Jurang dalam satu bahasa mewujudkan risiko Akta AI EU merentas keseluruhan sistem.

Untuk maklumat lanjut tentang pengesanan entiti, lihat panduan sistem token dan rujukan jenis entiti.

Langkah Praktikal: Menggoreng Set Data Anda

Langkah 1: Audit dahulu

Jalankan laluan pengesanan sebelum anda menggoreng apa-apa. Ini memberitahu anda PII apa yang ada:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Respons menyenaraikan setiap entiti yang dikesan dengan jenis, kedudukan, dan skornya. Jalankan ini merentas semua fail anda untuk melihat skop penuh sebelum anda bermula.

Langkah 2: Goreng kelompok

Untuk set data besar, gunakan titik akhir kelompok untuk memproses banyak fail sekaligus:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Selesai: {result['id']} - {len(result['items'])} entiti dibuang")

Langkah 3: Simpan rekod

Artikel 10 memerlukan rekod bertulis tentang apa yang anda lakukan. Untuk setiap set data, simpan:

  • Model dan versi pengesanan yang digunakan
  • Jenis entiti yang ditemui dan cara setiap satu diganti
  • Bilangan entiti yang dibuang setiap set data
  • Tarikh penggoresan dan versi set data yang digunakan

Ini memenuhi keperluan "amalan tadbir urus dan pengurusan data" dalam Artikel 10(2)(a).

Soalan Lazim

Adakah penggoresan merosakkan kualiti model?

Dalam kebanyakan kes, tidak. Model belajar corak daripada struktur teks, bukan butiran peribadi. Nama, nombor telefon, dan alamat boleh diganti dengan pemegang tempat seperti [NAME] atau [PHONE] dan model masih belajar corak yang sama. Ramai pasukan penyelidik mendapati set data yang digores menghasilkan model berkualiti setara. Kuncinya adalah menggunakan pemegang tempat yang konsisten supaya model melihat corak yang jelas.

Bagaimana jika set data saya sangat besar?

Gunakan API kelompok. Ia mengendalikan jumlah besar secara selari. Halaman harga menunjukkan pelan untuk kes penggunaan volume tinggi. Ramai pasukan memproses jutaan rekod setiap bulan.

Bagaimana dengan set data bukan Bahasa Inggeris?

API menyokong 48 bahasa. Setiap bahasa menggunakan model pengesanan yang dilatih dalam bahasa tersebut. Ini bermakna Bahasa Jerman, Perancis, Sepanyol, Jepun, dan bahasa lain semuanya diliputi. Lihat Soalan Lazim untuk senarai bahasa penuh. Set data berbilang bahasa juga disokong - anda boleh menentukan bahasa setiap dokumen dalam permintaan kelompok.

Akta AI Colorado: Dua Tarikh Akhir

Akta AI Colorado berkuat kuasa pada 30 Jun 2026 - lima minggu sebelum tarikh akhir EU. Ia menetapkan peraturan yang sama untuk "sistem AI berisiko tinggi" di bawah undang-undang negeri. Fokus utama adalah berat sebelah dan diskriminasi.

Passukan di EU dan Colorado menghadapi dua tarikh akhir sekaligus. Menggoreng set data anda membantu memenuhi kedua-dua undang-undang: Artikel 10 (EU) dan peraturan anti-berat sebelah Colorado. Langkah teknikal adalah sama.

Bertindak Sekarang

Lima bulan adalah masa yang mencukupi - jika anda bermula hari ini. Ia tidak mencukupi jika anda menunggu hingga Jun.

Garis masa praktikal:

  1. Minggu 1-2: Audit set data anda - ketahui rekod peribadi apa yang ada
  2. Minggu 3-6: Bina dan uji saluran paip penggoresan anda
  3. Minggu 7-10: Tulis rekod tadbir urus anda; dapatkan semakan undang-undang
  4. Minggu 11-16: Sahkan - pastikan set data yang digores memenuhi peraturan kualiti Artikel 10
  5. 2 Ogos: Tarikh penguatkuasaan - amalan yang mematuhi sudah pada tempatnya

API anonym.legal disambungkan ke saluran paip semasa anda tanpa perubahan besar. Semak harga untuk pelan volume. Soalan Lazim meliputi soalan Artikel 10 yang biasa.

Gunakan senarai semak pematuhan GDPR untuk rekod yang bertindih antara GDPR dan Artikel 10.

Akta AI EU bersedia untuk menguatkuasakan. Adakah organisasi anda akan bersedia menjelang 2 Ogos?

Mulakan dengan senarai semak pematuhan GDPR

Had dan Soalan Terbuka

Penggoresan data untuk peraturan Akta AI masih berkembang. Berikut adalah jurang utama.

Ambang tidak ditakrifkan. Akta AI EU tidak menyatakan tahap penggoresan yang "mencukupi." Sehingga Pejabat AI Eropah mengeluarkan panduan, anda menghadapi risiko undang-undang. Anda mungkin tidak tahu sama ada kaedah anda akan memuaskan pengawal selia.

Risiko pengecaman semula kekal. Penyelidikan menunjukkan model bahasa besar boleh menghafal dan memainkan semula kandungan daripada set data mereka. Rekod yang lulus piawaian penggoresan sebelum pembangunan model masih boleh diekstrak. Penggoresan sebelum pembangunan tidak menyelesaikan masalah ini sepenuhnya.

Rekod sintetik mempunyai had. Penjanaan sintetik menyimpan corak statistik tetapi boleh menambah berat sebelah halus atau terlepas kes tepi yang jarang. Model yang dibina hanya pada kandungan sintetik mungkin berprestasi buruk pada input sebenar.

Artikel 10 masih ditafsirkan. Frasa "langkah teknikal yang sesuai" memerlukan tafsiran. Kerja DPA awal merentas negeri anggota EU belum menyelesaikan piawaian yang jelas. Pantau panduan EDPB dan keputusan negeri anggota sepanjang 2026.

Sumber

  • Akta AI EU, Peraturan (EU) 2024/1689, Artikel 9-17 (kewajipan AI berisiko tinggi), OJ L 2024/1689
  • Akta AI EU, Artikel 10 - Data dan tadbir urus data
  • Panduan set data AI CNIL, Januari 2026
  • Akta AI Colorado, SB 205, berkuat kuasa 30 Jun 2026
  • Garis masa Akta AI EU: amalan yang dilarang 2 Februari 2025; sistem berisiko tinggi 2 Ogos 2026

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.