Loendus on alanud
Uuendatud 2026. aastaks
EL-i tehisintellekti seaduse tähtaeg on reaalne. Artikli 10 reeglid kehtivad alates 2. augustist 2026. Kui teie meeskond ehitab või käitab kõrge riskiga tehisintellekti süsteemi, tegutsege kohe. Aeg on lühike.
Trahvid on suuremad kui GDPR-il. Maksimaalne trahv on 35 miljonit eurot või 7% ülemaailmsest aastakäibest. GDPR piirab 20 miljoni euroga või 4%-ga. Ühel teisel tehisintellekti seadusel pole suuremaid trahve.
Millised tehisintellekti süsteemid on kõrge riskiga?
Tehisintellekti seadus liigitab süsteemid riski järgi. Kõrge riskiga süsteemid (lisa III) hõlmavad tehisintellekti, mida kasutatakse:
- Hariduses — koolide juurdepääs või õpilaste hindamine
- Töökohal — CV sõelumine, intervjuude hindamine, töötajate seire
- Põhiteenustes — krediidiskoreerimine, kindlustuse hinnakujundus, hädaabi väljastamine
- Õiguskaitses — kuritegude ennustamine, biomeetriline tuvastamine
- Tervishoius — meditsiiniseadmete tarkvara, patsientide triaaž
- Infrastruktuuris — energia, vee või transpordi juhtimine
- Justiitsis — õigusteabe tööriistad, karistuste tööriistad
Kas töötate mõnes neist valdkondadest? Artikkel 10 kehtib teile.
Artikkel 10: neli põhireegelit
Artikkel 10 seab reeglid kõrge riskiga tehisintellekti süsteemide poolt kasutatavate andmekogumite jaoks. Siin on neli peamist.
1. Kirjalik juhtimine
Andmekogumid peavad järgima "asjakohaseid andmehalduse ja -juhtimise tavasid". Vajate kirjalikke samme kogumiseks, kvaliteedikontrolliks ja pidevaks ülevaatuseks.
2. Kallutatuse testimine
Andmeid tuleb kontrollida "võimalike kallutatuste" osas, mis võivad põhjustada ebaõiglaseid väljundeid. Aktiivne testimine on nõutav. Tahtliku kallutatuse vältimine ei ole piisav.
3. Täpsus ja katvus
Andmekogumid peavad olema "asjakohased, piisavalt esindatavad ja vigadeta". Veebikogumine, mis jätab teatavad rühmad välja, võib selle testi läbi kukkuda.
4. Erilised andmetüübid
Artikkel 10(5) on kõige otsesem reegel. Kui kõrge riskiga süsteem kasutab erilisi kategooriaandmeid — tervis, rass, usund, poliitika, biomeetria — võite neid töödelda ainult siis, kui see on "rangelt vajalik" kallutatuse kontrollimiseks. Peate rakendama ka "asjakohaseid kaitsemeetmeid". Andmete puhastamine on üks tugevamaid kaitsemeetmeid, mida saate kasutada.
Põhijoon: enamik tehisintellekti mudeli andmekogumeid sisaldab isikuandmeid. Artikkel 10 ütleb: kasutage minimaalselt vajalikku koos tugevate tehniliste kaitsemeetmetega.
Vaadake meie õigusliku vastavuse lehte ja turvalisuse ülevaadet üksikasjade saamiseks.
Trahvide astmed
EL-i tehisintellekti seadusel on kolm trahvitasandit. Kõik ületavad GDPR-i sama tüüpi rikkumise puhul:
| Regulatsioon | Maksimaalne trahv | Käibe piirmäär |
|---|---|---|
| GDPR | 20 miljonit eurot | 4% ülemaailmsest käibest |
| EL-i tehisintellekti seadus (kõrge risk) | 15 miljonit eurot | 3% ülemaailmsest käibest |
| EL-i tehisintellekti seadus (keelatud) | 35 miljonit eurot | 7% ülemaailmsest käibest |
Andmekogumite rikkumised kuuluvad kõrge riskiga tasandile (15 miljonit eurot / 3%). Kui regulaator leiab, et isikuandmete kasutamine ilma kaitsemeetmeteta on keelatud tegu, kehtib kõrgeim tasand.
Reaalsed näited: 500 miljoni euroga käive 3%-l = 15 miljonit eurot trahvi. 5 miljardi euroga käive 3%-l = 150 miljonit eurot trahvi. Need on reaalsed numbrid, mitte teooria.
Miks andmete puhastamine selle lahendab
Nõuetekohaselt puhastatud andmed jäävad välja GDPR-i ulatusest. See eemaldab enamiku artikli 10 koormast.
Raskemad reeglid — eriliste kategooriate käsitlemine, kallutatuse kontrollid, andmesubjektide õigused — kehtivad ainult siis, kui andmekogum sisaldab isikuandmeid. Eemaldage need andmed kõigepealt. Koormus kaob suuremas osas.
CNIL (Prantsuse andmekaitseasutus) tegi selle selgeks 2026. aasta alguses. Selle tehisintellekti juhis ütleb: mudeli jõudluse jaoks mittevajalike isikuandmete puhastamine on artikli 10 peamine tehniline meede.
See ei ole marginaalne seisukoht. See on EL-i peamise tehisintellekti reguleerija valdav seisukoht.
Mida andmete puhastamine praktikas tähendab
Tehisintellekti mudeli andmekogumite puhastamine ei ole sama, mis reaalajaandmete puhastamine. Mudeli andmekogumid võivad sisaldada:
- Isikuandmetega dokumente — lepingud, e-kirjad, aruanded, tugipiletid
- Struktureeritud andmeid — klientide tabelid, mida kasutatakse ennustusmudelite ehitamiseks
- Märgistatud sisu — pildid või tekst märkmetega, mis sisaldavad isikuandmeid
- Sünteetilisi andmeid — kus genereerimine võib siiski säilitada isikumustreid
Peate tuvastama isikuandmed kõigis nendes formaatides. Ühe tüübi vahele jätmine paljastab kogu andmekogumi. Lepingul, millelt on nimed eemaldatud, kuid täielikud aadressid on alles, õpetab mudelile seostada asukohta demograafiliste mustritega.
anonym.legal API käsitleb suurte tehisintellekti andmekogumite pakett-töötlust. See tuvastab 285+ olemitüüpi 48 keeles. Euroopa tehisintellekti ettevõtete jaoks mitmekeelsete andmekogumitega on keelteülene katvus kriitilise tähtsusega. Lünk ühes keeles loob EL-i tehisintellekti seaduse riski kogu süsteemi ulatuses.
Olemite tuvastamise kohta lähemalt vaadake tokenisüsteemi juhendit ja olemitüüpide viide.
Praktilised sammud: andmekogumi puhastamine
1. samm: esmalt audit
Käitage tuvastuspass enne puhastamist. See näitab teile, millised isikuandmed on olemas:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer TEIE_API_VOTI" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Vastus loetleb iga tuvastatud olemi koos selle tüübi, asukoha ja skooriga. Käitage seda kõikides failides, et näha kogu ulatust enne alustamist.
2. samm: pakett-puhastamine
Suurte andmekogumite puhul kasutage pakett-lõpp-punkti paljude failide korraga töötlemiseks:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Valmis: {result['id']} -- {len(result['items'])} olemit eemaldatud")
3. samm: hoidke arvestust
Artikkel 10 nõuab kirjalikku arvestust tehtust. Iga andmekogumi kohta hoidke:
- Kasutatud tuvastusmudelit ja versiooni
- Milliseid olemitüüpe leiti ja kuidas iga asendati
- Andmekogumi kohta eemaldatud olemite arvu
- Puhastamise kuupäeva ja kasutatud andmekogumi versiooni
See vastab artikli 10(2)(a) "andmehalduse ja -juhtimise tavade" nõudele.
Levinud küsimused
Kas puhastamine rikub mudeli kvaliteeti?
Enamikul juhtudel mitte. Mudel õpib tekstistruktuuri mustreid, mitte isiklikke üksikasju. Nimed, telefoninumbrid ja aadressid saab asendada kohatäitjatega nagu [NIMI] või [TELEFON] ja mudel õpib samu mustreid. Paljud teadusmeeskonnad on leidnud, et puhastatud andmekogumid toodavad samaväärse kvaliteediga mudeleid. Võti on järjepidevate kohatäitjate kasutamine, et mudel näeks selget mustrit.
Mis siis, kui minu andmekogum on väga suur?
Kasutage pakett-API-d. See käsitleb suuri mahte paralleelselt. Hinnakirja leht näitab suure mahu kasutusjuhtumite plaane. Paljud meeskonnad töötlevad miljoneid kirjeid kuus.
Mis ingliskeelsete andmekogumite kohta?
API toetab 48 keelt. Iga keel kasutab selles keeles treenitud tuvastusmudelit. See tähendab, et saksa, prantsuse, hispaania, jaapani ja muud keeled on kõik kaetud. Vaadake KKK-d keelte täieliku loendi saamiseks. Mitmekeelsed andmekogumid on samuti toetatud — saate täpsustada keele dokumendi kohta pakett-päringus.
Colorado tehisintellekti seadus: kaks tähtaega
Colorado tehisintellekti seadus jõustub 30. juunil 2026 — viis nädalat enne EL-i tähtaega. See seab sarnased reeglid "kõrge riskiga tehisintellekti süsteemidele" osariigi seaduse alusel. Peamine fookus on kallutatusel ja diskrimineerimisel.
Nii EL-i kui ka Colorado meeskonnad seisavad korraga kahe tähtajaga. Andmekogumite puhastamine aitab täita mõlemat seadust: artikkel 10 (EL) ja Colorado kallutatusevastased reeglid. Tehnilised sammud on samad.
Tegutsege kohe
Viis kuud on piisav — kui alustate täna. See ei ole piisav, kui ootate juunini.
Praktiline ajakava:
- Nädalad 1–2: Auditeerige oma andmekogumeid — selgitage välja, millised isikuandmed on olemas
- Nädalad 3–6: Ehitage ja testige puhastamistorujuhet
- Nädalad 7–10: Kirjutage üles oma juhtimisarvestused; hankkige juriidiline ülevaatus
- Nädalad 11–16: Valideerige — kinnitage, et puhastatud andmekogumid vastavad artikli 10 kvaliteedireeglitele
- 2. august: Jõustamise kuupäev — nõuetekohased tavad on paigas
anonym.legal API ühendub teie praeguse torujuhtmega ilma suurte muudatusteta. Vaadake hinnakirja mahutavate plaanide jaoks. KKK katab levinud artikli 10 küsimused.
Kasutage GDPR-i vastavuse kontrollnimekirja andmete jaoks, mis kattuvad GDPR-i ja artikli 10 vahel.
EL-i tehisintellekti seadus on valmis jõustama. Kas teie organisatsioon on 2. augustiks valmis?
Alustage GDPR-i vastavuse kontrollnimekirjaga
Piirangud ja avatud küsimused
Andmete puhastamine tehisintellekti seaduse reeglite jaoks on veel arenemas. Siin on peamised lüngad.
Läved on määratlemata. EL-i tehisintellekti seadus ei täpsusta, milline puhastamise tase on "piisav". Kuni Euroopa tehisintellekti amet juhiseid ei anna, seisate juriidilise riskiga. Te ei pruugi teada, kas teie meetod rahuldab regulaatoreid.
Taasvastamise risk püsib. Uuringud näitavad, et suured keelemudelid suudavad oma andmekogumitelt sisu meelde jätta ja taasesitada. Kirjed, mis vastasid puhastamisstandarditele enne mudeli arendamist, võivad siiski olla väljastatavad. Puhastamine enne arendamist ei lahenda seda täielikult.
Sünteetilistel andmetel on piirangud. Sünteetiline genereerimine säilitab statistilisi mustreid, kuid võib lisada peened kallutatused või jätta haruldased äärmisjuhud vahele. Ainult sünteetilisel sisul põhinevad mudelid võivad reaalsete sisendite puhul halvasti toimida.
Artikkel 10 on endiselt tõlgendamise all. Fraas "asjakohased tehnilised meetmed" vajab tõlgendamist. EL-i liikmesriikide andmekaitseasutuste varajane töö ei ole selgeid standardeid kehtestanud. Jälgige EDPB juhiseid ja liikmesriikide otsuseid kogu 2026. aasta jooksul.
Allikad
- EL-i tehisintellekti seadus, määrus (EL) 2024/1689, artiklid 9–17 (kõrge riskiga tehisintellekti kohustused), ELT L 2024/1689
- EL-i tehisintellekti seadus, artikkel 10 — andmed ja andmehaldus
- CNIL tehisintellekti andmekogumite juhis, jaanuar 2026
- Colorado tehisintellekti seadus, SB 205, jõustub 30. juunil 2026
- EL-i tehisintellekti seaduse ajakava: keelatud tavad 2. veebruar 2025; kõrge riskiga süsteemid 2. august 2026