Lähtölaskenta on alkanut

Päivitetty vuodelle 2026

EU:n tekoälyasetuksen määräaika on todellinen. 10. artiklan säännöt tulevat voimaan 2. elokuuta 2026. Jos tiimisi rakentaa tai käyttää korkeariskistä tekoälyjärjestelmää, toimi nyt. Aika on lyhyt.

Sakot ovat korkeampia kuin GDPR:ssä. Enimmäissakko on 35 miljoonaa euroa tai 7 % maailmanlaajuisesta vuosiliikevaihdosta. GDPR:n katto on 20 miljoonaa euroa tai 4 %. Millään muulla tekoälylailla ei ole korkeampia sakkoja.

Mitkä tekoälyjärjestelmät ovat korkeariskisiä?

Tekoälyasetus luokittelee järjestelmät riskitason mukaan. Korkeariskiset järjestelmät (liite III) kattavat tekoälyn, jota käytetään:

Koulutuksessa — kouluun pääsyssä tai opiskelijoiden pisteyttämisessä
Töissä — ansioluetteloiden seulonnassa, haastattelun pisteyttämisessä, työntekijöiden valvonnassa
Avainpalveluissa — luottopisteytyksessä, vakuutushinnoittelussa, hätälähetyksissä
Lainvalvonnassa — rikosennakoinnissa, biometrisessä tunnistamisessa
Terveydenhuollossa — lääkintälaiteohjelmistoissa, potilaan triagessa
Infrastruktuurissa — energia-, vesi- tai liikennehallinnassa
Oikeudessa — oikeustutkimustyökaluissa, tuomiotyökaluissa

Työskenteletkö jollakin näistä alueista? 10. artikla koskee sinua.

10. artikla: Neljä keskeistä sääntöä

artikla asettaa säännöt korkeariskisten tekoälyjärjestelmien käyttämille tietoaineistoille. Tässä ovat neljä pääsääntöä.

1. Kirjallinen hallinto

Tietoaineistojen on noudatettava "asianmukaisia datan hallinto- ja hallintakäytäntöjä". Tarvitset kirjalliset vaiheet keräystä, laaduntarkistuksia ja jatkuvaa arviointia varten.

2. Harhanmuodostustestaus

Tietueet on tarkistettava "mahdollisten harhojen" varalta, jotka saattavat aiheuttaa epäoikeudenmukaisia tuloksia. Aktiivinen testaus vaaditaan. Tahallisen harhan välttäminen ei riitä.

3. Tarkkuus ja kattavuus

Tietoaineistojen on oltava "asianmukaisia, riittävän edustavia ja virheettömiä". Verkkoindeksoinnit, jotka jättävät tietyt ryhmät huomiotta, voivat epäonnistua tässä testissä.

4. Erityiset tietuetyypit

artiklan 5 kohta on suorin sääntö. Kun korkeariskinen järjestelmä käyttää erityisten kategorioiden tietueita — terveyttä, rotua, uskontoa, politiikkaa, biometriikkaa — voit käsitellä niitä vain, kun se on "ehdottoman välttämätöntä" harhanmuodostustarkistusten vuoksi. Sinun on myös sovellettava "asianmukaisia suojatoimia". Tietojen anonymisointi on yksi tehokkaimmista suojatoimista, joita voit käyttää.

Lopputulos: useimmat tekoälymallien tietoaineistot sisältävät henkilötietoja. 10. artikla sanoo: käytä vähintä tarvittavaa, vahvilla teknisillä suojatoimilla.

Katso oikeudellinen vaatimustenmukaisuussivumme ja tietoturvayleiskatsauksemme lisätietoja varten.

Sakkoerät

EU:n tekoälyasetuksella on kolme sakkoerää. Kaikki ylittävät GDPR:n saman tyyppisessä rikkomuksessa:

Asetus	Enimmäissakko	Liikevaihto-osuus
GDPR	20 miljoonaa euroa	4 % maailmanlaajuisesta liikevaihdosta
EU:n tekoälyasetus (korkeariskinen)	15 miljoonaa euroa	3 % maailmanlaajuisesta liikevaihdosta
EU:n tekoälyasetus (kielletty)	35 miljoonaa euroa	7 % maailmanlaajuisesta liikevaihdosta

Tietoaineistorikkomukset kuuluvat korkeariskiseen erään (15 M€ / 3 %). Jos valvoja toteaa, että henkilötietueiden käyttäminen ilman suojatoimia on kielletty toiminta, ylin erä soveltuu.

Todellisia esimerkkejä: 500 miljoonan euron liikevaihto × 3 % = 15 M€ sakko. 5 miljardin euron liikevaihto × 3 % = 150 M€ sakko. Nämä ovat todellisia lukuja, eivät teoriaa.

Miksi tietojen anonymisointi ratkaisee tämän

Asianmukaisesti anonymisoidut tietueet jäävät GDPR:n soveltamisalan ulkopuolelle. Tämä poistaa suurimman osan 10. artiklan taakasta.

Kovat säännöt — erityisten kategorioiden käsittely, harhanmuodostustarkistukset, rekisteröityjen oikeudet — koskevat vain, kun tietoaineisto sisältää henkilötietueita. Poista ensin nämä tietueet. Taakka häviää suurimmaksi osaksi.

CNIL (Ranskan tietoviranomainen) teki tämän selväksi vuoden 2026 alussa. Sen tekoälyohjeistus sanoo tämän: henkilötietueiden, joita ei tarvita mallin suorituskyvyn kannalta, anonymisointi on ensisijainen tekninen toimenpide 10. artiklassa.

Tämä ei ole marginaalinen näkemys. Se on EU:n päätekoälyvalvojan valtavirran kanta.

Mitä tietojen anonymisointi tarkoittaa käytännössä

Tekoälymallien tietoaineistojen anonymisointi ei ole sama asia kuin reaaliaikaisten tuotantotietueiden anonymisointi. Mallien tietoaineistot voivat sisältää:

PII:tä sisältävät dokumentit — sopimukset, sähköpostit, raportit, tukipyynnöt
Rakenteelliset tietueet — asiakastaulukot, joita käytetään prediktiivisten mallien rakentamiseen
Merkitty sisältö — kuvat tai teksti, joissa on henkilötietoja sisältäviä muistiinpanoja
Synteettiset tietueet — joissa generointi voi edelleen säilyttää henkilökohtaisia kuvioita

Sinun on havaittava PII kaikissa näissä formaateissa. Yhden tyypin puuttuminen altistaa koko tietoaineiston. Sopimus, josta nimet on poistettu, mutta jossa on täydelliset osoitteet edelleen ehjinä, opettaa mallin yhdistämään sijaintipaikan demografisiin kuvioihin.

anonym.legal API käsittelee erän prosessoinnin suurille tekoälytietoaineistoille. Se havaitsee 285+ entiteettityyppiä 48 kielellä. Eurooppalaisille tekoälyyrityksille, joilla on monikielisiä tietoaineistoja, kieltenvälinen kattavuus on kriittinen. Aukko yhdessä kielessä luo EU:n tekoälyasetuksen riskin koko järjestelmälle.

Lisätietoja entiteettihavaitsemisesta löytyy tokeni-järjestelmäoppaasta ja entiteettityyppien viitteestä.

Käytännön toimenpiteet: Tietoaineistosi anonymisointi

Vaihe 1: Auditoi ensin

Suorita havaitsemisajo ennen kuin anonymisoit mitään. Tämä kertoo, mitä PII:tä on läsnä:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Vaste luettelee jokaisen havaitun entiteetin tyypillä, sijainnilla ja pisteytyksellä. Suorita tämä kaikissa tiedostoissasi nähdäksesi koko laajuuden ennen aloittamista.

Vaihe 2: Erän anonymisointi

Suurille tietoaineistoille käytä erä-päätepistettä useiden tiedostojen käsittelemiseen kerralla:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Valmis: {result['id']} — {len(result['items'])} entiteettiä poistettu")

Vaihe 3: Pidä kirjaa

artikla edellyttää kirjallisia tietueita siitä, mitä teit. Kullekin tietoaineistolle säilytä:

Käytetty havaitsemismalli ja versio
Mitkä entiteettityypit löydettiin ja miten kukin korvattiin
Tietoaineistokohtaisesti poistettujen entiteettien lukumäärät
Anonymisointipäivämäärä ja käytetty tietoaineistoversio

Tämä täyttää "datan hallinto- ja hallintakäytäntöjä" koskevan vaatimuksen 10. artiklan 2 kohdan a alakohdassa.

Yleisiä kysymyksiä

Rikkooko anonymisointi mallin laadun?

Useimmissa tapauksissa ei. Malli oppii kuvioita tekstirakenteesta, ei henkilökohtaisista yksityiskohdista. Nimet, puhelinnumerot ja osoitteet voidaan korvata paikkamerkeillä kuten [NAME] tai [PHONE], ja malli oppii silti samat kuviot. Monet tutkimustiimit ovat havainneet, että anonymisoidut tietoaineistot tuottavat saman laadun malleja. Avain on käyttää johdonmukaisia paikkamerkkejä, jotta malli näkee selkeän kuvion.

Entä jos tietoaineistoni on hyvin suuri?

Käytä erä-APIa. Se käsittelee suuria määriä rinnakkain. Hinnasto-sivu näyttää suuren volyymin käyttötapausten suunnitelmat. Monet tiimit käsittelevät miljoonia tietueita kuukaudessa.

Entä muut kuin englanninkieliset tietoaineistot?

API tukee 48 kieltä. Jokainen kieli käyttää kyseiselle kielelle koulutettua havaitsemismallia. Tämä tarkoittaa, että saksa, ranska, espanja, japani ja muut ovat kaikki tuettuina. Katso FAQ täydellisestä kielilistasta. Sekakieliset tietoaineistot ovat myös tuettuja — voit määrittää kielen dokumenttikohtaisesti erä-pyynnössä.

Coloradon tekoälylaki: Kaksi määräaikaa

Coloradon tekoälylaki tulee voimaan 30. kesäkuuta 2026 — viisi viikkoa ennen EU:n määräaikaa. Se asettaa samanlaisia sääntöjä "korkeariskisille tekoälyjärjestelmille" osavaltion lainsäädännön nojalla. Pääpaino on harhanmuodostuksessa ja syrjinnässä.

Tiimit sekä EU:ssa että Coloradossa kohtaavat kaksi määräaikaa kerralla. Tietoaineistojen anonymisointi auttaa täyttämään molemmat lait: 10. artiklan (EU) ja Coloradon syrjinnänvastaiset säännöt. Tekniset toimenpiteet ovat samat.

Toimi nyt

Viisi kuukautta riittää — jos aloitat tänään. Se ei riitä, jos odotat kesäkuuhun.

Käytännön aikataulu:

Viikot 1–2: Auditoi tietoaineistosi — selvitä, mitä henkilötietueita on läsnä
Viikot 3–6: Rakenna ja testaa anonymisointiputkistosi
Viikot 7–10: Kirjaa hallintotietueesi; saa oikeudellinen arvio
Viikot 11–16: Validoi — vahvista, että anonymisoidut tietoaineistot täyttävät 10. artiklan laatusäännöt
Elokuu 2: Täytäntöönpanopäivä — vaatimustenmukaiset käytännöt paikoillaan

anonym.legal API liittyy nykyiseen putkistoosi ilman suuria muutoksia. Tarkista hinnoittelu volyymitarjousten osalta. FAQ kattaa yleiset 10. artiklaa koskevat kysymykset.

Käytä GDPR-vaatimustenmukaisuustarkistuslistaa tietueille, jotka kattavat sekä GDPR:n että 10. artiklan.

EU:n tekoälyasetus on valmis täytäntöönpanoon. Onko organisaatiosi valmis elokuun 2. päivään mennessä?

Aloita GDPR-vaatimustenmukaisuustarkistuslistasta →

Rajoitukset ja avoimet kysymykset

Tekoälyasetuksen mukainen tietojen anonymisointi on edelleen kehittymässä. Tässä ovat keskeiset aukot.

Kynnysarvoja ei ole määritelty. EU:n tekoälyasetus ei määrittele, mikä taso anonymisointia on "riittävä". Kunnes Euroopan tekoälyvirasto antaa ohjeistuksen, kohtaat oikeudellisen riskin. Et ehkä tiedä, täyttääkö menetelmäsi viranomaisten vaatimukset.

Uudelleentunnistamisen riski pysyy. Tutkimus osoittaa, että suuret kielimallit voivat muistaa ja toistaa sisältöä tietoaineistoistaan. Tietueet, jotka läpäisivät anonymisointistandardit ennen mallin kehittämistä, saattavat silti olla poimittavissa. Anonymisointi ennen kehittämistä ei täysin ratkaise tätä.

Synteettiset tietueet ovat rajoitettuja. Synteettinen generointi säilyttää tilastolliset kuviot, mutta voi lisätä hienovaraisia harhoja tai jättää huomioimatta harvinaiset reunatapaukset. Vain synteettisissä sisällöissä koulutetut mallit saattavat suoriutua huonosti todellisista syötteistä.

10. artiklaa tulkitaan edelleen. Lauseke "asianmukaiset tekniset toimenpiteet" vaatii tulkintaa. EU:n jäsenvaltioiden varhainen DPA-työ ei ole vakiinnuttanut selkeitä standardeja. Seuraa EDPB:n ohjeistusta ja jäsenvaltioidien päätöksiä läpi vuoden 2026.

Lähteet

EU:n tekoälyasetus, asetus (EU) 2024/1689, 9–17 artiklat (korkeariskisten tekoälyjärjestelmien velvoitteet), EUVL L 2024/1689
EU:n tekoälyasetus, 10. artikla — Tiedot ja datan hallinto
CNIL-tekoälytietoaineisto-ohjeistus, tammikuu 2026
Coloradon tekoälylaki, SB 205, voimaan 30. kesäkuuta 2026
EU:n tekoälyasetuksen aikataulu: kielletyt käytännöt 2. helmikuuta 2025; korkeariskiset järjestelmät 2. elokuuta 2026

EU:n tekoälyasetus elokuu 2026: Koulutustietojen anonymisointi 10. artiklan täyttämiseksi

Lähtölaskenta on alkanut

Mitkä tekoälyjärjestelmät ovat korkeariskisiä?

10. artikla: Neljä keskeistä sääntöä

Sakkoerät

Miksi tietojen anonymisointi ratkaisee tämän

Mitä tietojen anonymisointi tarkoittaa käytännössä

Käytännön toimenpiteet: Tietoaineistosi anonymisointi

Yleisiä kysymyksiä

Coloradon tekoälylaki: Kaksi määräaikaa

Toimi nyt

Rajoitukset ja avoimet kysymykset

Lähteet

Liittyvät Artikkelit

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Valmiina suojaamaan tietojasi?

EU:n tekoälyasetus elokuu 2026: Koulutustietojen anonymisointi 10. artiklan täyttämiseksi

Lähtölaskenta on alkanut

Mitkä tekoälyjärjestelmät ovat korkeariskisiä?

10. artikla: Neljä keskeistä sääntöä

Sakkoerät

Miksi tietojen anonymisointi ratkaisee tämän

Mitä tietojen anonymisointi tarkoittaa käytännössä

Käytännön toimenpiteet: Tietoaineistosi anonymisointi

Yleisiä kysymyksiä

Coloradon tekoälylaki: Kaksi määräaikaa

Toimi nyt

Rajoitukset ja avoimet kysymykset

Lähteet

Liittyvät Artikkelit

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow