Takaisin BlogiinGDPR & Vaatimustenmukaisuus

EU:n tekoälyasetus elokuu 2026: Koulutustietojen anonymisointi 10. artiklan täyttämiseksi

EU:n tekoälyasetuksen täysi täytäntöönpano alkaa 2. elokuuta 2026. Sakot voivat olla jopa 35 miljoonaa euroa tai 7 % maailmanlaajuisesta liikevaihdosta. 10. artikla edellyttää koulutustietojen anonymisointia.

March 16, 20269 min lukuaika
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Lähtölaskenta on alkanut

Päivitetty vuodelle 2026

EU:n tekoälyasetuksen määräaika on todellinen. 10. artiklan säännöt tulevat voimaan 2. elokuuta 2026. Jos tiimisi rakentaa tai käyttää korkeariskistä tekoälyjärjestelmää, toimi nyt. Aika on lyhyt.

Sakot ovat korkeampia kuin GDPR:ssä. Enimmäissakko on 35 miljoonaa euroa tai 7 % maailmanlaajuisesta vuosiliikevaihdosta. GDPR:n katto on 20 miljoonaa euroa tai 4 %. Millään muulla tekoälylailla ei ole korkeampia sakkoja.

Mitkä tekoälyjärjestelmät ovat korkeariskisiä?

Tekoälyasetus luokittelee järjestelmät riskitason mukaan. Korkeariskiset järjestelmät (liite III) kattavat tekoälyn, jota käytetään:

  • Koulutuksessa — kouluun pääsyssä tai opiskelijoiden pisteyttämisessä
  • Töissä — ansioluetteloiden seulonnassa, haastattelun pisteyttämisessä, työntekijöiden valvonnassa
  • Avainpalveluissa — luottopisteytyksessä, vakuutushinnoittelussa, hätälähetyksissä
  • Lainvalvonnassa — rikosennakoinnissa, biometrisessä tunnistamisessa
  • Terveydenhuollossa — lääkintälaiteohjelmistoissa, potilaan triagessa
  • Infrastruktuurissa — energia-, vesi- tai liikennehallinnassa
  • Oikeudessa — oikeustutkimustyökaluissa, tuomiotyökaluissa

Työskenteletkö jollakin näistä alueista? 10. artikla koskee sinua.

10. artikla: Neljä keskeistä sääntöä

  1. artikla asettaa säännöt korkeariskisten tekoälyjärjestelmien käyttämille tietoaineistoille. Tässä ovat neljä pääsääntöä.

1. Kirjallinen hallinto

Tietoaineistojen on noudatettava "asianmukaisia datan hallinto- ja hallintakäytäntöjä". Tarvitset kirjalliset vaiheet keräystä, laaduntarkistuksia ja jatkuvaa arviointia varten.

2. Harhanmuodostustestaus

Tietueet on tarkistettava "mahdollisten harhojen" varalta, jotka saattavat aiheuttaa epäoikeudenmukaisia tuloksia. Aktiivinen testaus vaaditaan. Tahallisen harhan välttäminen ei riitä.

3. Tarkkuus ja kattavuus

Tietoaineistojen on oltava "asianmukaisia, riittävän edustavia ja virheettömiä". Verkkoindeksoinnit, jotka jättävät tietyt ryhmät huomiotta, voivat epäonnistua tässä testissä.

4. Erityiset tietuetyypit

  1. artiklan 5 kohta on suorin sääntö. Kun korkeariskinen järjestelmä käyttää erityisten kategorioiden tietueita — terveyttä, rotua, uskontoa, politiikkaa, biometriikkaa — voit käsitellä niitä vain, kun se on "ehdottoman välttämätöntä" harhanmuodostustarkistusten vuoksi. Sinun on myös sovellettava "asianmukaisia suojatoimia". Tietojen anonymisointi on yksi tehokkaimmista suojatoimista, joita voit käyttää.

Lopputulos: useimmat tekoälymallien tietoaineistot sisältävät henkilötietoja. 10. artikla sanoo: käytä vähintä tarvittavaa, vahvilla teknisillä suojatoimilla.

Katso oikeudellinen vaatimustenmukaisuussivumme ja tietoturvayleiskatsauksemme lisätietoja varten.

Sakkoerät

EU:n tekoälyasetuksella on kolme sakkoerää. Kaikki ylittävät GDPR:n saman tyyppisessä rikkomuksessa:

AsetusEnimmäissakkoLiikevaihto-osuus
GDPR20 miljoonaa euroa4 % maailmanlaajuisesta liikevaihdosta
EU:n tekoälyasetus (korkeariskinen)15 miljoonaa euroa3 % maailmanlaajuisesta liikevaihdosta
EU:n tekoälyasetus (kielletty)35 miljoonaa euroa7 % maailmanlaajuisesta liikevaihdosta

Tietoaineistorikkomukset kuuluvat korkeariskiseen erään (15 M€ / 3 %). Jos valvoja toteaa, että henkilötietueiden käyttäminen ilman suojatoimia on kielletty toiminta, ylin erä soveltuu.

Todellisia esimerkkejä: 500 miljoonan euron liikevaihto × 3 % = 15 M€ sakko. 5 miljardin euron liikevaihto × 3 % = 150 M€ sakko. Nämä ovat todellisia lukuja, eivät teoriaa.

Miksi tietojen anonymisointi ratkaisee tämän

Asianmukaisesti anonymisoidut tietueet jäävät GDPR:n soveltamisalan ulkopuolelle. Tämä poistaa suurimman osan 10. artiklan taakasta.

Kovat säännöt — erityisten kategorioiden käsittely, harhanmuodostustarkistukset, rekisteröityjen oikeudet — koskevat vain, kun tietoaineisto sisältää henkilötietueita. Poista ensin nämä tietueet. Taakka häviää suurimmaksi osaksi.

CNIL (Ranskan tietoviranomainen) teki tämän selväksi vuoden 2026 alussa. Sen tekoälyohjeistus sanoo tämän: henkilötietueiden, joita ei tarvita mallin suorituskyvyn kannalta, anonymisointi on ensisijainen tekninen toimenpide 10. artiklassa.

Tämä ei ole marginaalinen näkemys. Se on EU:n päätekoälyvalvojan valtavirran kanta.

Mitä tietojen anonymisointi tarkoittaa käytännössä

Tekoälymallien tietoaineistojen anonymisointi ei ole sama asia kuin reaaliaikaisten tuotantotietueiden anonymisointi. Mallien tietoaineistot voivat sisältää:

  • PII:tä sisältävät dokumentit — sopimukset, sähköpostit, raportit, tukipyynnöt
  • Rakenteelliset tietueet — asiakastaulukot, joita käytetään prediktiivisten mallien rakentamiseen
  • Merkitty sisältö — kuvat tai teksti, joissa on henkilötietoja sisältäviä muistiinpanoja
  • Synteettiset tietueet — joissa generointi voi edelleen säilyttää henkilökohtaisia kuvioita

Sinun on havaittava PII kaikissa näissä formaateissa. Yhden tyypin puuttuminen altistaa koko tietoaineiston. Sopimus, josta nimet on poistettu, mutta jossa on täydelliset osoitteet edelleen ehjinä, opettaa mallin yhdistämään sijaintipaikan demografisiin kuvioihin.

anonym.legal API käsittelee erän prosessoinnin suurille tekoälytietoaineistoille. Se havaitsee 285+ entiteettityyppiä 48 kielellä. Eurooppalaisille tekoälyyrityksille, joilla on monikielisiä tietoaineistoja, kieltenvälinen kattavuus on kriittinen. Aukko yhdessä kielessä luo EU:n tekoälyasetuksen riskin koko järjestelmälle.

Lisätietoja entiteettihavaitsemisesta löytyy tokeni-järjestelmäoppaasta ja entiteettityyppien viitteestä.

Käytännön toimenpiteet: Tietoaineistosi anonymisointi

Vaihe 1: Auditoi ensin

Suorita havaitsemisajo ennen kuin anonymisoit mitään. Tämä kertoo, mitä PII:tä on läsnä:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Vaste luettelee jokaisen havaitun entiteetin tyypillä, sijainnilla ja pisteytyksellä. Suorita tämä kaikissa tiedostoissasi nähdäksesi koko laajuuden ennen aloittamista.

Vaihe 2: Erän anonymisointi

Suurille tietoaineistoille käytä erä-päätepistettä useiden tiedostojen käsittelemiseen kerralla:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Valmis: {result['id']} — {len(result['items'])} entiteettiä poistettu")

Vaihe 3: Pidä kirjaa

  1. artikla edellyttää kirjallisia tietueita siitä, mitä teit. Kullekin tietoaineistolle säilytä:
  • Käytetty havaitsemismalli ja versio
  • Mitkä entiteettityypit löydettiin ja miten kukin korvattiin
  • Tietoaineistokohtaisesti poistettujen entiteettien lukumäärät
  • Anonymisointipäivämäärä ja käytetty tietoaineistoversio

Tämä täyttää "datan hallinto- ja hallintakäytäntöjä" koskevan vaatimuksen 10. artiklan 2 kohdan a alakohdassa.

Yleisiä kysymyksiä

Rikkooko anonymisointi mallin laadun?

Useimmissa tapauksissa ei. Malli oppii kuvioita tekstirakenteesta, ei henkilökohtaisista yksityiskohdista. Nimet, puhelinnumerot ja osoitteet voidaan korvata paikkamerkeillä kuten [NAME] tai [PHONE], ja malli oppii silti samat kuviot. Monet tutkimustiimit ovat havainneet, että anonymisoidut tietoaineistot tuottavat saman laadun malleja. Avain on käyttää johdonmukaisia paikkamerkkejä, jotta malli näkee selkeän kuvion.

Entä jos tietoaineistoni on hyvin suuri?

Käytä erä-APIa. Se käsittelee suuria määriä rinnakkain. Hinnasto-sivu näyttää suuren volyymin käyttötapausten suunnitelmat. Monet tiimit käsittelevät miljoonia tietueita kuukaudessa.

Entä muut kuin englanninkieliset tietoaineistot?

API tukee 48 kieltä. Jokainen kieli käyttää kyseiselle kielelle koulutettua havaitsemismallia. Tämä tarkoittaa, että saksa, ranska, espanja, japani ja muut ovat kaikki tuettuina. Katso FAQ täydellisestä kielilistasta. Sekakieliset tietoaineistot ovat myös tuettuja — voit määrittää kielen dokumenttikohtaisesti erä-pyynnössä.

Coloradon tekoälylaki: Kaksi määräaikaa

Coloradon tekoälylaki tulee voimaan 30. kesäkuuta 2026 — viisi viikkoa ennen EU:n määräaikaa. Se asettaa samanlaisia sääntöjä "korkeariskisille tekoälyjärjestelmille" osavaltion lainsäädännön nojalla. Pääpaino on harhanmuodostuksessa ja syrjinnässä.

Tiimit sekä EU:ssa että Coloradossa kohtaavat kaksi määräaikaa kerralla. Tietoaineistojen anonymisointi auttaa täyttämään molemmat lait: 10. artiklan (EU) ja Coloradon syrjinnänvastaiset säännöt. Tekniset toimenpiteet ovat samat.

Toimi nyt

Viisi kuukautta riittää — jos aloitat tänään. Se ei riitä, jos odotat kesäkuuhun.

Käytännön aikataulu:

  1. Viikot 1–2: Auditoi tietoaineistosi — selvitä, mitä henkilötietueita on läsnä
  2. Viikot 3–6: Rakenna ja testaa anonymisointiputkistosi
  3. Viikot 7–10: Kirjaa hallintotietueesi; saa oikeudellinen arvio
  4. Viikot 11–16: Validoi — vahvista, että anonymisoidut tietoaineistot täyttävät 10. artiklan laatusäännöt
  5. Elokuu 2: Täytäntöönpanopäivä — vaatimustenmukaiset käytännöt paikoillaan

anonym.legal API liittyy nykyiseen putkistoosi ilman suuria muutoksia. Tarkista hinnoittelu volyymitarjousten osalta. FAQ kattaa yleiset 10. artiklaa koskevat kysymykset.

Käytä GDPR-vaatimustenmukaisuustarkistuslistaa tietueille, jotka kattavat sekä GDPR:n että 10. artiklan.

EU:n tekoälyasetus on valmis täytäntöönpanoon. Onko organisaatiosi valmis elokuun 2. päivään mennessä?

Aloita GDPR-vaatimustenmukaisuustarkistuslistasta →

Rajoitukset ja avoimet kysymykset

Tekoälyasetuksen mukainen tietojen anonymisointi on edelleen kehittymässä. Tässä ovat keskeiset aukot.

Kynnysarvoja ei ole määritelty. EU:n tekoälyasetus ei määrittele, mikä taso anonymisointia on "riittävä". Kunnes Euroopan tekoälyvirasto antaa ohjeistuksen, kohtaat oikeudellisen riskin. Et ehkä tiedä, täyttääkö menetelmäsi viranomaisten vaatimukset.

Uudelleentunnistamisen riski pysyy. Tutkimus osoittaa, että suuret kielimallit voivat muistaa ja toistaa sisältöä tietoaineistoistaan. Tietueet, jotka läpäisivät anonymisointistandardit ennen mallin kehittämistä, saattavat silti olla poimittavissa. Anonymisointi ennen kehittämistä ei täysin ratkaise tätä.

Synteettiset tietueet ovat rajoitettuja. Synteettinen generointi säilyttää tilastolliset kuviot, mutta voi lisätä hienovaraisia harhoja tai jättää huomioimatta harvinaiset reunatapaukset. Vain synteettisissä sisällöissä koulutetut mallit saattavat suoriutua huonosti todellisista syötteistä.

10. artiklaa tulkitaan edelleen. Lauseke "asianmukaiset tekniset toimenpiteet" vaatii tulkintaa. EU:n jäsenvaltioiden varhainen DPA-työ ei ole vakiinnuttanut selkeitä standardeja. Seuraa EDPB:n ohjeistusta ja jäsenvaltioidien päätöksiä läpi vuoden 2026.

Lähteet

  • EU:n tekoälyasetus, asetus (EU) 2024/1689, 9–17 artiklat (korkeariskisten tekoälyjärjestelmien velvoitteet), EUVL L 2024/1689
  • EU:n tekoälyasetus, 10. artikla — Tiedot ja datan hallinto
  • CNIL-tekoälytietoaineisto-ohjeistus, tammikuu 2026
  • Coloradon tekoälylaki, SB 205, voimaan 30. kesäkuuta 2026
  • EU:n tekoälyasetuksen aikataulu: kielletyt käytännöt 2. helmikuuta 2025; korkeariskiset järjestelmät 2. elokuuta 2026

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.