Lähtölaskenta on alkanut
Päivitetty vuodelle 2026
EU:n tekoälyasetuksen määräaika on todellinen. 10. artiklan säännöt tulevat voimaan 2. elokuuta 2026. Jos tiimisi rakentaa tai käyttää korkeariskistä tekoälyjärjestelmää, toimi nyt. Aika on lyhyt.
Sakot ovat korkeampia kuin GDPR:ssä. Enimmäissakko on 35 miljoonaa euroa tai 7 % maailmanlaajuisesta vuosiliikevaihdosta. GDPR:n katto on 20 miljoonaa euroa tai 4 %. Millään muulla tekoälylailla ei ole korkeampia sakkoja.
Mitkä tekoälyjärjestelmät ovat korkeariskisiä?
Tekoälyasetus luokittelee järjestelmät riskitason mukaan. Korkeariskiset järjestelmät (liite III) kattavat tekoälyn, jota käytetään:
- Koulutuksessa — kouluun pääsyssä tai opiskelijoiden pisteyttämisessä
- Töissä — ansioluetteloiden seulonnassa, haastattelun pisteyttämisessä, työntekijöiden valvonnassa
- Avainpalveluissa — luottopisteytyksessä, vakuutushinnoittelussa, hätälähetyksissä
- Lainvalvonnassa — rikosennakoinnissa, biometrisessä tunnistamisessa
- Terveydenhuollossa — lääkintälaiteohjelmistoissa, potilaan triagessa
- Infrastruktuurissa — energia-, vesi- tai liikennehallinnassa
- Oikeudessa — oikeustutkimustyökaluissa, tuomiotyökaluissa
Työskenteletkö jollakin näistä alueista? 10. artikla koskee sinua.
10. artikla: Neljä keskeistä sääntöä
- artikla asettaa säännöt korkeariskisten tekoälyjärjestelmien käyttämille tietoaineistoille. Tässä ovat neljä pääsääntöä.
1. Kirjallinen hallinto
Tietoaineistojen on noudatettava "asianmukaisia datan hallinto- ja hallintakäytäntöjä". Tarvitset kirjalliset vaiheet keräystä, laaduntarkistuksia ja jatkuvaa arviointia varten.
2. Harhanmuodostustestaus
Tietueet on tarkistettava "mahdollisten harhojen" varalta, jotka saattavat aiheuttaa epäoikeudenmukaisia tuloksia. Aktiivinen testaus vaaditaan. Tahallisen harhan välttäminen ei riitä.
3. Tarkkuus ja kattavuus
Tietoaineistojen on oltava "asianmukaisia, riittävän edustavia ja virheettömiä". Verkkoindeksoinnit, jotka jättävät tietyt ryhmät huomiotta, voivat epäonnistua tässä testissä.
4. Erityiset tietuetyypit
- artiklan 5 kohta on suorin sääntö. Kun korkeariskinen järjestelmä käyttää erityisten kategorioiden tietueita — terveyttä, rotua, uskontoa, politiikkaa, biometriikkaa — voit käsitellä niitä vain, kun se on "ehdottoman välttämätöntä" harhanmuodostustarkistusten vuoksi. Sinun on myös sovellettava "asianmukaisia suojatoimia". Tietojen anonymisointi on yksi tehokkaimmista suojatoimista, joita voit käyttää.
Lopputulos: useimmat tekoälymallien tietoaineistot sisältävät henkilötietoja. 10. artikla sanoo: käytä vähintä tarvittavaa, vahvilla teknisillä suojatoimilla.
Katso oikeudellinen vaatimustenmukaisuussivumme ja tietoturvayleiskatsauksemme lisätietoja varten.
Sakkoerät
EU:n tekoälyasetuksella on kolme sakkoerää. Kaikki ylittävät GDPR:n saman tyyppisessä rikkomuksessa:
| Asetus | Enimmäissakko | Liikevaihto-osuus |
|---|---|---|
| GDPR | 20 miljoonaa euroa | 4 % maailmanlaajuisesta liikevaihdosta |
| EU:n tekoälyasetus (korkeariskinen) | 15 miljoonaa euroa | 3 % maailmanlaajuisesta liikevaihdosta |
| EU:n tekoälyasetus (kielletty) | 35 miljoonaa euroa | 7 % maailmanlaajuisesta liikevaihdosta |
Tietoaineistorikkomukset kuuluvat korkeariskiseen erään (15 M€ / 3 %). Jos valvoja toteaa, että henkilötietueiden käyttäminen ilman suojatoimia on kielletty toiminta, ylin erä soveltuu.
Todellisia esimerkkejä: 500 miljoonan euron liikevaihto × 3 % = 15 M€ sakko. 5 miljardin euron liikevaihto × 3 % = 150 M€ sakko. Nämä ovat todellisia lukuja, eivät teoriaa.
Miksi tietojen anonymisointi ratkaisee tämän
Asianmukaisesti anonymisoidut tietueet jäävät GDPR:n soveltamisalan ulkopuolelle. Tämä poistaa suurimman osan 10. artiklan taakasta.
Kovat säännöt — erityisten kategorioiden käsittely, harhanmuodostustarkistukset, rekisteröityjen oikeudet — koskevat vain, kun tietoaineisto sisältää henkilötietueita. Poista ensin nämä tietueet. Taakka häviää suurimmaksi osaksi.
CNIL (Ranskan tietoviranomainen) teki tämän selväksi vuoden 2026 alussa. Sen tekoälyohjeistus sanoo tämän: henkilötietueiden, joita ei tarvita mallin suorituskyvyn kannalta, anonymisointi on ensisijainen tekninen toimenpide 10. artiklassa.
Tämä ei ole marginaalinen näkemys. Se on EU:n päätekoälyvalvojan valtavirran kanta.
Mitä tietojen anonymisointi tarkoittaa käytännössä
Tekoälymallien tietoaineistojen anonymisointi ei ole sama asia kuin reaaliaikaisten tuotantotietueiden anonymisointi. Mallien tietoaineistot voivat sisältää:
- PII:tä sisältävät dokumentit — sopimukset, sähköpostit, raportit, tukipyynnöt
- Rakenteelliset tietueet — asiakastaulukot, joita käytetään prediktiivisten mallien rakentamiseen
- Merkitty sisältö — kuvat tai teksti, joissa on henkilötietoja sisältäviä muistiinpanoja
- Synteettiset tietueet — joissa generointi voi edelleen säilyttää henkilökohtaisia kuvioita
Sinun on havaittava PII kaikissa näissä formaateissa. Yhden tyypin puuttuminen altistaa koko tietoaineiston. Sopimus, josta nimet on poistettu, mutta jossa on täydelliset osoitteet edelleen ehjinä, opettaa mallin yhdistämään sijaintipaikan demografisiin kuvioihin.
anonym.legal API käsittelee erän prosessoinnin suurille tekoälytietoaineistoille. Se havaitsee 285+ entiteettityyppiä 48 kielellä. Eurooppalaisille tekoälyyrityksille, joilla on monikielisiä tietoaineistoja, kieltenvälinen kattavuus on kriittinen. Aukko yhdessä kielessä luo EU:n tekoälyasetuksen riskin koko järjestelmälle.
Lisätietoja entiteettihavaitsemisesta löytyy tokeni-järjestelmäoppaasta ja entiteettityyppien viitteestä.
Käytännön toimenpiteet: Tietoaineistosi anonymisointi
Vaihe 1: Auditoi ensin
Suorita havaitsemisajo ennen kuin anonymisoit mitään. Tämä kertoo, mitä PII:tä on läsnä:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Vaste luettelee jokaisen havaitun entiteetin tyypillä, sijainnilla ja pisteytyksellä. Suorita tämä kaikissa tiedostoissasi nähdäksesi koko laajuuden ennen aloittamista.
Vaihe 2: Erän anonymisointi
Suurille tietoaineistoille käytä erä-päätepistettä useiden tiedostojen käsittelemiseen kerralla:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Valmis: {result['id']} — {len(result['items'])} entiteettiä poistettu")
Vaihe 3: Pidä kirjaa
- artikla edellyttää kirjallisia tietueita siitä, mitä teit. Kullekin tietoaineistolle säilytä:
- Käytetty havaitsemismalli ja versio
- Mitkä entiteettityypit löydettiin ja miten kukin korvattiin
- Tietoaineistokohtaisesti poistettujen entiteettien lukumäärät
- Anonymisointipäivämäärä ja käytetty tietoaineistoversio
Tämä täyttää "datan hallinto- ja hallintakäytäntöjä" koskevan vaatimuksen 10. artiklan 2 kohdan a alakohdassa.
Yleisiä kysymyksiä
Rikkooko anonymisointi mallin laadun?
Useimmissa tapauksissa ei. Malli oppii kuvioita tekstirakenteesta, ei henkilökohtaisista yksityiskohdista. Nimet, puhelinnumerot ja osoitteet voidaan korvata paikkamerkeillä kuten [NAME] tai [PHONE], ja malli oppii silti samat kuviot. Monet tutkimustiimit ovat havainneet, että anonymisoidut tietoaineistot tuottavat saman laadun malleja. Avain on käyttää johdonmukaisia paikkamerkkejä, jotta malli näkee selkeän kuvion.
Entä jos tietoaineistoni on hyvin suuri?
Käytä erä-APIa. Se käsittelee suuria määriä rinnakkain. Hinnasto-sivu näyttää suuren volyymin käyttötapausten suunnitelmat. Monet tiimit käsittelevät miljoonia tietueita kuukaudessa.
Entä muut kuin englanninkieliset tietoaineistot?
API tukee 48 kieltä. Jokainen kieli käyttää kyseiselle kielelle koulutettua havaitsemismallia. Tämä tarkoittaa, että saksa, ranska, espanja, japani ja muut ovat kaikki tuettuina. Katso FAQ täydellisestä kielilistasta. Sekakieliset tietoaineistot ovat myös tuettuja — voit määrittää kielen dokumenttikohtaisesti erä-pyynnössä.
Coloradon tekoälylaki: Kaksi määräaikaa
Coloradon tekoälylaki tulee voimaan 30. kesäkuuta 2026 — viisi viikkoa ennen EU:n määräaikaa. Se asettaa samanlaisia sääntöjä "korkeariskisille tekoälyjärjestelmille" osavaltion lainsäädännön nojalla. Pääpaino on harhanmuodostuksessa ja syrjinnässä.
Tiimit sekä EU:ssa että Coloradossa kohtaavat kaksi määräaikaa kerralla. Tietoaineistojen anonymisointi auttaa täyttämään molemmat lait: 10. artiklan (EU) ja Coloradon syrjinnänvastaiset säännöt. Tekniset toimenpiteet ovat samat.
Toimi nyt
Viisi kuukautta riittää — jos aloitat tänään. Se ei riitä, jos odotat kesäkuuhun.
Käytännön aikataulu:
- Viikot 1–2: Auditoi tietoaineistosi — selvitä, mitä henkilötietueita on läsnä
- Viikot 3–6: Rakenna ja testaa anonymisointiputkistosi
- Viikot 7–10: Kirjaa hallintotietueesi; saa oikeudellinen arvio
- Viikot 11–16: Validoi — vahvista, että anonymisoidut tietoaineistot täyttävät 10. artiklan laatusäännöt
- Elokuu 2: Täytäntöönpanopäivä — vaatimustenmukaiset käytännöt paikoillaan
anonym.legal API liittyy nykyiseen putkistoosi ilman suuria muutoksia. Tarkista hinnoittelu volyymitarjousten osalta. FAQ kattaa yleiset 10. artiklaa koskevat kysymykset.
Käytä GDPR-vaatimustenmukaisuustarkistuslistaa tietueille, jotka kattavat sekä GDPR:n että 10. artiklan.
EU:n tekoälyasetus on valmis täytäntöönpanoon. Onko organisaatiosi valmis elokuun 2. päivään mennessä?
Aloita GDPR-vaatimustenmukaisuustarkistuslistasta →
Rajoitukset ja avoimet kysymykset
Tekoälyasetuksen mukainen tietojen anonymisointi on edelleen kehittymässä. Tässä ovat keskeiset aukot.
Kynnysarvoja ei ole määritelty. EU:n tekoälyasetus ei määrittele, mikä taso anonymisointia on "riittävä". Kunnes Euroopan tekoälyvirasto antaa ohjeistuksen, kohtaat oikeudellisen riskin. Et ehkä tiedä, täyttääkö menetelmäsi viranomaisten vaatimukset.
Uudelleentunnistamisen riski pysyy. Tutkimus osoittaa, että suuret kielimallit voivat muistaa ja toistaa sisältöä tietoaineistoistaan. Tietueet, jotka läpäisivät anonymisointistandardit ennen mallin kehittämistä, saattavat silti olla poimittavissa. Anonymisointi ennen kehittämistä ei täysin ratkaise tätä.
Synteettiset tietueet ovat rajoitettuja. Synteettinen generointi säilyttää tilastolliset kuviot, mutta voi lisätä hienovaraisia harhoja tai jättää huomioimatta harvinaiset reunatapaukset. Vain synteettisissä sisällöissä koulutetut mallit saattavat suoriutua huonosti todellisista syötteistä.
10. artiklaa tulkitaan edelleen. Lauseke "asianmukaiset tekniset toimenpiteet" vaatii tulkintaa. EU:n jäsenvaltioiden varhainen DPA-työ ei ole vakiinnuttanut selkeitä standardeja. Seuraa EDPB:n ohjeistusta ja jäsenvaltioidien päätöksiä läpi vuoden 2026.
Lähteet
- EU:n tekoälyasetus, asetus (EU) 2024/1689, 9–17 artiklat (korkeariskisten tekoälyjärjestelmien velvoitteet), EUVL L 2024/1689
- EU:n tekoälyasetus, 10. artikla — Tiedot ja datan hallinto
- CNIL-tekoälytietoaineisto-ohjeistus, tammikuu 2026
- Coloradon tekoälylaki, SB 205, voimaan 30. kesäkuuta 2026
- EU:n tekoälyasetuksen aikataulu: kielletyt käytännöt 2. helmikuuta 2025; korkeariskiset järjestelmät 2. elokuuta 2026