Loendus on alanud

Uuendatud 2026. aastaks

EL-i tehisintellekti seaduse tähtaeg on reaalne. Artikli 10 reeglid kehtivad alates 2. augustist 2026. Kui teie meeskond ehitab või käitab kõrge riskiga tehisintellekti süsteemi, tegutsege kohe. Aeg on lühike.

Trahvid on suuremad kui GDPR-il. Maksimaalne trahv on 35 miljonit eurot või 7% ülemaailmsest aastakäibest. GDPR piirab 20 miljoni euroga või 4%-ga. Ühel teisel tehisintellekti seadusel pole suuremaid trahve.

Millised tehisintellekti süsteemid on kõrge riskiga?

Tehisintellekti seadus liigitab süsteemid riski järgi. Kõrge riskiga süsteemid (lisa III) hõlmavad tehisintellekti, mida kasutatakse:

Hariduses — koolide juurdepääs või õpilaste hindamine
Töökohal — CV sõelumine, intervjuude hindamine, töötajate seire
Põhiteenustes — krediidiskoreerimine, kindlustuse hinnakujundus, hädaabi väljastamine
Õiguskaitses — kuritegude ennustamine, biomeetriline tuvastamine
Tervishoius — meditsiiniseadmete tarkvara, patsientide triaaž
Infrastruktuuris — energia, vee või transpordi juhtimine
Justiitsis — õigusteabe tööriistad, karistuste tööriistad

Kas töötate mõnes neist valdkondadest? Artikkel 10 kehtib teile.

Artikkel 10: neli põhireegelit

Artikkel 10 seab reeglid kõrge riskiga tehisintellekti süsteemide poolt kasutatavate andmekogumite jaoks. Siin on neli peamist.

1. Kirjalik juhtimine

Andmekogumid peavad järgima "asjakohaseid andmehalduse ja -juhtimise tavasid". Vajate kirjalikke samme kogumiseks, kvaliteedikontrolliks ja pidevaks ülevaatuseks.

2. Kallutatuse testimine

Andmeid tuleb kontrollida "võimalike kallutatuste" osas, mis võivad põhjustada ebaõiglaseid väljundeid. Aktiivne testimine on nõutav. Tahtliku kallutatuse vältimine ei ole piisav.

3. Täpsus ja katvus

Andmekogumid peavad olema "asjakohased, piisavalt esindatavad ja vigadeta". Veebikogumine, mis jätab teatavad rühmad välja, võib selle testi läbi kukkuda.

4. Erilised andmetüübid

Artikkel 10(5) on kõige otsesem reegel. Kui kõrge riskiga süsteem kasutab erilisi kategooriaandmeid — tervis, rass, usund, poliitika, biomeetria — võite neid töödelda ainult siis, kui see on "rangelt vajalik" kallutatuse kontrollimiseks. Peate rakendama ka "asjakohaseid kaitsemeetmeid". Andmete puhastamine on üks tugevamaid kaitsemeetmeid, mida saate kasutada.

Põhijoon: enamik tehisintellekti mudeli andmekogumeid sisaldab isikuandmeid. Artikkel 10 ütleb: kasutage minimaalselt vajalikku koos tugevate tehniliste kaitsemeetmetega.

Vaadake meie õigusliku vastavuse lehte ja turvalisuse ülevaadet üksikasjade saamiseks.

Trahvide astmed

EL-i tehisintellekti seadusel on kolm trahvitasandit. Kõik ületavad GDPR-i sama tüüpi rikkumise puhul:

Regulatsioon	Maksimaalne trahv	Käibe piirmäär
GDPR	20 miljonit eurot	4% ülemaailmsest käibest
EL-i tehisintellekti seadus (kõrge risk)	15 miljonit eurot	3% ülemaailmsest käibest
EL-i tehisintellekti seadus (keelatud)	35 miljonit eurot	7% ülemaailmsest käibest

Andmekogumite rikkumised kuuluvad kõrge riskiga tasandile (15 miljonit eurot / 3%). Kui regulaator leiab, et isikuandmete kasutamine ilma kaitsemeetmeteta on keelatud tegu, kehtib kõrgeim tasand.

Reaalsed näited: 500 miljoni euroga käive 3%-l = 15 miljonit eurot trahvi. 5 miljardi euroga käive 3%-l = 150 miljonit eurot trahvi. Need on reaalsed numbrid, mitte teooria.

Miks andmete puhastamine selle lahendab

Nõuetekohaselt puhastatud andmed jäävad välja GDPR-i ulatusest. See eemaldab enamiku artikli 10 koormast.

Raskemad reeglid — eriliste kategooriate käsitlemine, kallutatuse kontrollid, andmesubjektide õigused — kehtivad ainult siis, kui andmekogum sisaldab isikuandmeid. Eemaldage need andmed kõigepealt. Koormus kaob suuremas osas.

CNIL (Prantsuse andmekaitseasutus) tegi selle selgeks 2026. aasta alguses. Selle tehisintellekti juhis ütleb: mudeli jõudluse jaoks mittevajalike isikuandmete puhastamine on artikli 10 peamine tehniline meede.

See ei ole marginaalne seisukoht. See on EL-i peamise tehisintellekti reguleerija valdav seisukoht.

Mida andmete puhastamine praktikas tähendab

Tehisintellekti mudeli andmekogumite puhastamine ei ole sama, mis reaalajaandmete puhastamine. Mudeli andmekogumid võivad sisaldada:

Isikuandmetega dokumente — lepingud, e-kirjad, aruanded, tugipiletid
Struktureeritud andmeid — klientide tabelid, mida kasutatakse ennustusmudelite ehitamiseks
Märgistatud sisu — pildid või tekst märkmetega, mis sisaldavad isikuandmeid
Sünteetilisi andmeid — kus genereerimine võib siiski säilitada isikumustreid

Peate tuvastama isikuandmed kõigis nendes formaatides. Ühe tüübi vahele jätmine paljastab kogu andmekogumi. Lepingul, millelt on nimed eemaldatud, kuid täielikud aadressid on alles, õpetab mudelile seostada asukohta demograafiliste mustritega.

anonym.legal API käsitleb suurte tehisintellekti andmekogumite pakett-töötlust. See tuvastab 285+ olemitüüpi 48 keeles. Euroopa tehisintellekti ettevõtete jaoks mitmekeelsete andmekogumitega on keelteülene katvus kriitilise tähtsusega. Lünk ühes keeles loob EL-i tehisintellekti seaduse riski kogu süsteemi ulatuses.

Olemite tuvastamise kohta lähemalt vaadake tokenisüsteemi juhendit ja olemitüüpide viide.

Praktilised sammud: andmekogumi puhastamine

1. samm: esmalt audit

Käitage tuvastuspass enne puhastamist. See näitab teile, millised isikuandmed on olemas:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer TEIE_API_VOTI" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Vastus loetleb iga tuvastatud olemi koos selle tüübi, asukoha ja skooriga. Käitage seda kõikides failides, et näha kogu ulatust enne alustamist.

2. samm: pakett-puhastamine

Suurte andmekogumite puhul kasutage pakett-lõpp-punkti paljude failide korraga töötlemiseks:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Valmis: {result['id']} -- {len(result['items'])} olemit eemaldatud")

3. samm: hoidke arvestust

Artikkel 10 nõuab kirjalikku arvestust tehtust. Iga andmekogumi kohta hoidke:

Kasutatud tuvastusmudelit ja versiooni
Milliseid olemitüüpe leiti ja kuidas iga asendati
Andmekogumi kohta eemaldatud olemite arvu
Puhastamise kuupäeva ja kasutatud andmekogumi versiooni

See vastab artikli 10(2)(a) "andmehalduse ja -juhtimise tavade" nõudele.

Levinud küsimused

Kas puhastamine rikub mudeli kvaliteeti?

Enamikul juhtudel mitte. Mudel õpib tekstistruktuuri mustreid, mitte isiklikke üksikasju. Nimed, telefoninumbrid ja aadressid saab asendada kohatäitjatega nagu [NIMI] või [TELEFON] ja mudel õpib samu mustreid. Paljud teadusmeeskonnad on leidnud, et puhastatud andmekogumid toodavad samaväärse kvaliteediga mudeleid. Võti on järjepidevate kohatäitjate kasutamine, et mudel näeks selget mustrit.

Mis siis, kui minu andmekogum on väga suur?

Kasutage pakett-API-d. See käsitleb suuri mahte paralleelselt. Hinnakirja leht näitab suure mahu kasutusjuhtumite plaane. Paljud meeskonnad töötlevad miljoneid kirjeid kuus.

Mis ingliskeelsete andmekogumite kohta?

API toetab 48 keelt. Iga keel kasutab selles keeles treenitud tuvastusmudelit. See tähendab, et saksa, prantsuse, hispaania, jaapani ja muud keeled on kõik kaetud. Vaadake KKK-d keelte täieliku loendi saamiseks. Mitmekeelsed andmekogumid on samuti toetatud — saate täpsustada keele dokumendi kohta pakett-päringus.

Colorado tehisintellekti seadus: kaks tähtaega

Colorado tehisintellekti seadus jõustub 30. juunil 2026 — viis nädalat enne EL-i tähtaega. See seab sarnased reeglid "kõrge riskiga tehisintellekti süsteemidele" osariigi seaduse alusel. Peamine fookus on kallutatusel ja diskrimineerimisel.

Nii EL-i kui ka Colorado meeskonnad seisavad korraga kahe tähtajaga. Andmekogumite puhastamine aitab täita mõlemat seadust: artikkel 10 (EL) ja Colorado kallutatusevastased reeglid. Tehnilised sammud on samad.

Tegutsege kohe

Viis kuud on piisav — kui alustate täna. See ei ole piisav, kui ootate juunini.

Praktiline ajakava:

Nädalad 1–2: Auditeerige oma andmekogumeid — selgitage välja, millised isikuandmed on olemas
Nädalad 3–6: Ehitage ja testige puhastamistorujuhet
Nädalad 7–10: Kirjutage üles oma juhtimisarvestused; hankkige juriidiline ülevaatus
Nädalad 11–16: Valideerige — kinnitage, et puhastatud andmekogumid vastavad artikli 10 kvaliteedireeglitele
2. august: Jõustamise kuupäev — nõuetekohased tavad on paigas

anonym.legal API ühendub teie praeguse torujuhtmega ilma suurte muudatusteta. Vaadake hinnakirja mahutavate plaanide jaoks. KKK katab levinud artikli 10 küsimused.

Kasutage GDPR-i vastavuse kontrollnimekirja andmete jaoks, mis kattuvad GDPR-i ja artikli 10 vahel.

EL-i tehisintellekti seadus on valmis jõustama. Kas teie organisatsioon on 2. augustiks valmis?

Alustage GDPR-i vastavuse kontrollnimekirjaga

Piirangud ja avatud küsimused

Andmete puhastamine tehisintellekti seaduse reeglite jaoks on veel arenemas. Siin on peamised lüngad.

Läved on määratlemata. EL-i tehisintellekti seadus ei täpsusta, milline puhastamise tase on "piisav". Kuni Euroopa tehisintellekti amet juhiseid ei anna, seisate juriidilise riskiga. Te ei pruugi teada, kas teie meetod rahuldab regulaatoreid.

Taasvastamise risk püsib. Uuringud näitavad, et suured keelemudelid suudavad oma andmekogumitelt sisu meelde jätta ja taasesitada. Kirjed, mis vastasid puhastamisstandarditele enne mudeli arendamist, võivad siiski olla väljastatavad. Puhastamine enne arendamist ei lahenda seda täielikult.

Sünteetilistel andmetel on piirangud. Sünteetiline genereerimine säilitab statistilisi mustreid, kuid võib lisada peened kallutatused või jätta haruldased äärmisjuhud vahele. Ainult sünteetilisel sisul põhinevad mudelid võivad reaalsete sisendite puhul halvasti toimida.

Artikkel 10 on endiselt tõlgendamise all. Fraas "asjakohased tehnilised meetmed" vajab tõlgendamist. EL-i liikmesriikide andmekaitseasutuste varajane töö ei ole selgeid standardeid kehtestanud. Jälgige EDPB juhiseid ja liikmesriikide otsuseid kogu 2026. aasta jooksul.

Allikad

EL-i tehisintellekti seadus, määrus (EL) 2024/1689, artiklid 9–17 (kõrge riskiga tehisintellekti kohustused), ELT L 2024/1689
EL-i tehisintellekti seadus, artikkel 10 — andmed ja andmehaldus
CNIL tehisintellekti andmekogumite juhis, jaanuar 2026
Colorado tehisintellekti seadus, SB 205, jõustub 30. juunil 2026
EL-i tehisintellekti seaduse ajakava: keelatud tavad 2. veebruar 2025; kõrge riskiga süsteemid 2. august 2026

EL-i tehisintellekti seadus august 2026: treeningandmete anonuümimine artikli 10 täitmiseks

Loendus on alanud

Millised tehisintellekti süsteemid on kõrge riskiga?

Artikkel 10: neli põhireegelit

Trahvide astmed

Miks andmete puhastamine selle lahendab

Mida andmete puhastamine praktikas tähendab

Praktilised sammud: andmekogumi puhastamine

Levinud küsimused

Colorado tehisintellekti seadus: kaks tähtaega

Tegutsege kohe

Piirangud ja avatud küsimused

Allikad

Seotud Artiklid

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Kas olete valmis oma andmeid kaitsma?

EL-i tehisintellekti seadus august 2026: treeningandmete anonuümimine artikli 10 täitmiseks

Loendus on alanud

Millised tehisintellekti süsteemid on kõrge riskiga?

Artikkel 10: neli põhireegelit

Trahvide astmed

Miks andmete puhastamine selle lahendab

Mida andmete puhastamine praktikas tähendab

Praktilised sammud: andmekogumi puhastamine

Levinud küsimused

Colorado tehisintellekti seadus: kaks tähtaega

Tegutsege kohe

Piirangud ja avatud küsimused

Allikad

Seotud Artiklid

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Kas olete valmis oma andmeid kaitsma?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow