anonym.legal
Terug na BlogGDPR & Nakoming

EU KI-wet Augustus 2026: Opleidingsdata Anonimiseer om Artikel 10 na te Kom

Die EU KI-wet se volledige afdwinging begin op 2 Augustus 2026. Boetes tot €35M of 7% van globale omset. Artikel 10 vereis die anonimisering van opleidingsdata.

March 16, 20269 min lees
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Die Aftelling Het Begin

Bygewerk vir 2026

Die EU KI-wet-sperdatum is werklik. Artikel 10-reels geld vanaf 2 Augustus 2026. As jou span 'n hoerisiko-KI-stelsel bou of laat loop, tree nou op. Tyd is kort.

Boetes gaan hoer as GDPR. Die maksimumboete is €35 miljoen of 7% van globale jaarlikse omset. GDPR se plafon is €20 miljoen of 4%. Geen ander KI-wet het hoer boetes nie.

Watter KI-stelsels Is Hoeerisiko?

Die KI-wet sorteer stelsels volgens risiko. Hoerisikostelsels (Bylae III) dek KI wat gebruik word in:

  • Onderwys -- skooltoelating of studentpunte
  • Werk -- CV-sifting, onderhoudpunte, werknemermoniteering
  • Sleuteldienste -- krediettelling, versekeringspryse, nooddiensuitstuur
  • Wetstoepasssing -- misdaadvoorspelling, biometriese ID
  • Gesondheidsorg -- mediese toestefsagteware, pasienttriage
  • Infrastruktuur -- energie-, water- of vervoerbestuur
  • Reg -- regsnavorsingsgereedskap, vonnisgereedskap

Werk jy in enige van hierdie? Artikel 10 geld vir jou.

Artikel 10: Vier Sleutelreels

Artikel 10 stel reels vir datastelle wat deur hoerisiko-KI-stelsels gebruik word. Hier is die vier hoofones.

1. Geskrewe Bestuur

Datastelle moet "geskikte databeheer- en bestuurspraktyke" volg. Jy benodig geskrewe stappe vir insameling, kwaliteitstoetse en deurlopende hersiening.

2. Vooroordeel-toetsing

Rekords moet nagegaan word vir "moontlike vooroordele" wat onregverdige uitvoere kan veroorsaak. Aktiewe toetsing is vereis. Die vermyding van opsetlike vooroordeel is nie genoeg nie.

3. Akkuraatheid en Dekking

Datastelle moet "relevant, voldoende verteenwoordigend en vry van foute" wees. Webkruipe wat sekere groepe mis, mag hierdie toets nie slaag nie.

4. Spesiale Rektipes

Artikel 10(5) is die mees direkte reel. Wanneer 'n hoerisiko-stelsel spesiale kategoriereekords gebruik -- gesondheid, ras, godsdiens, politiek, biometrie -- mag jy dit slegs verwerk wanneer dit "streng noodsaaklik" is vir vooroordeel-toetse. Jy moet ook "geskikte sekuriteitswaarborge" toepas. Dataskuring is een van die sterkste sekuriteitswaarborge wat jy kan gebruik.

Die kern: die meeste KI-modeldatastelle bevat persoonlike rekords. Artikel 10 se gebruik die minimum wat nodig is, met sterk tegniese sekuriteitswaarborge.

Sien ons regsnakoming-bladsy en sekuriteitsoorsig vir besonderhede.

Boetevlakke

Die EU KI-wet het drie boetevlakke. Almal oorskry GDPR vir dieselfde tipe skending:

RegulasieMaks BoeteOmsetplafon
GDPR€20 miljoen4% globale omset
EU KI-wet (hoerisiko)€15 miljoen3% globale omset
EU KI-wet (verbied)€35 miljoen7% globale omset

Datastell-skending val in die hoerisiko-vlak (€15M / 3%). As 'n reguleerder bevind dat die gebruik van persoonlike rekords sonder sekuriteitswaarborge 'n verbode handeling is, geld die toppervlak.

Werklike voorbeelde: €500M omset teen 3% = €15M boete. €5B omset teen 3% = €150M boete. Dit is werklike getalle, nie teorie nie.

Waarom Dataskuring Dit Oplos

Behoorlik geskuurde rekords val buite GDPR-omvang. Dit verwyder die meeste van Artikel 10 se las.

Die harde reels -- spesiale kategorie-hantering, vooroordeel-toetse, datashefrechte -- geld slegs wanneer 'n datastel persoonlike rekords bevat. Verwyder eers daardie rekords. Die las verdwyn grotendeels.

Die CNIL (Franse data-owerheid) het dit vroeg in 2026 duidelik gemaak. Sy KI-leiding se: dataskuring van persoonlike rekords wat nie vir modelwerkvermoee nodig is nie, is die primere tegniese maatreel vir Artikel 10.

Dit is nie 'n kantmening nie. Dit is die hoofstroombenadering van die EU se topste KI-reguleerder.

Wat Dataskuring In Praktyk Beteken

Die skuring van KI-modeldatastelle is nie dieselfde as die skuring van lewendige produksierekords nie. Modeldatastelle kan bevat:

  • Dokumente met PII -- kontrakte, e-posse, verslae, ondersteuningskaartjies
  • Gestruktureerde rekords -- klientetabelle wat gebruik word om voorspellende modelle te bou
  • Gelabelde inhoud -- beelde of teks met notas wat persoonlike data insluit
  • Sintetiese rekords -- waar generasie steeds persoonlike patrone mag bewaar

Jy moet PII in al hierdie formate bespeur. Om een tipe mis te loop stel die hele datastel bloot. 'n Kontrak met name verwyder maar volledige adresse steeds intact sal 'n model leer om ligging aan demografiese patrone te koppel.

Die anonym.legal API hanteer bondelprosessering vir groot KI-datastelle. Dit bespeur 285+ entiteitstipes oor 48 tale. Vir Europese KI-maatskappye met veeltalige datastelle is kruistaaldekking krities. 'n Gaping in een taal skep EU KI-wet-risiko oor die hele stelsel.

Vir meer oor entiteitsopsporing, sien die tekenstelselssgids en entiteitstipe-verwysing.

Praktiese Stappe: Skuur Jou Datastel

Stap 1: Ouditeer eerste

Voer 'n opspooringsoordrag uit voordat jy enigiets skuur. Dit vertel jou watter PII teenwoordig is:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer JOU_API_SLEUTEL" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Die reaksie lys elke bespeurde entiteit met sy tipe, posisie en telling. Voer dit oor al jou leers uit om die volle omvang te sien voor jy begin.

Stap 2: Bondel-skuur

Vir groot datastelle, gebruik die bondel-eindpunt om baie leers gelyktydig te verwerk:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Klaar: {result['id']} -- {len(result['items'])} entiteite verwyder")

Stap 3: Hou rekords

Artikel 10 vereis geskrewe rekords van wat jy gedoen het. Vir elke datastel, bewaar:

  • Die opspoormodel en weergawe wat gebruik is
  • Watter entiteitstipes gevind is en hoe elk vervang is
  • Entiteitstellings verwyder per datastel
  • Die datum van skuring en die databasis-weergawe wat gebruik is

Dit voldoen aan die "databeheer- en bestuurspraktyke"-vereiste in Artikel 10(2)(a).

Algemene Vrae

Breek skuring modelkwaliteit?

In die meeste gevalle nie. Die model leer patrone van teksstruktuur, nie persoonlike besonderhede nie. Name, telefoonnommers en adresse kan vervang word met plekhouers soos [NAAM] of [FOON] en die model leer steeds dieselfde patrone. Baie navorsingsspanne het bevind dat geskuurde datastelle modelle van gelyke kwaliteit produseer. Die sleutel is om konsekwente plekhouers te gebruik sodat die model 'n duidelike patroon sien.

Wat as my datastel baie groot is?

Gebruik die bondel-API. Dit hanteer groot volumes parallel. Die prysbladsy toon planne vir hoevolume-gebruiksgevalle. Baie spanne verwerk miljoene rekords per maand.

Wat van nie-Engelse datastelle?

Die API ondersteun 48 tale. Elke taal gebruik 'n opspoormodel wat op daardie taal opgelei is. Dit beteken Duits, Frans, Spaans, Japannees en ander is almal gedek. Sien die FAQ vir 'n volledige taallys. Gemengde-taal-datastelle word ook ondersteun -- jy kan die taal per dokument in die bondelversoek spesifiseer.

Colorado KI-wet: Twee Sperdatums

Colorado se KI-wet tree op 30 Junie 2026 in werking -- vyf weke voor die EU-sperdatum. Dit stel soortgelyke reels vir "hoerisiko-KI-stelsels" onder staatsreg. Die hooffokus is vooroordeel en diskriminasie.

Spanne in beide die EU en Colorado staar twee sperdatums gelyktydig in die gesig. Die skuring van jou datastelle help om beide wette na te kom: Artikel 10 (EU) en Colorado se anti-vooroordeel-reels. Die tegniese stappe is dieselfde.

Tree Nou Op

Vyf maande is genoeg tyd -- as jy vandag begin. Dit is nie genoeg as jy tot Junie wag nie.

'n Praktiese tydlyn:

  1. Weke 1-2: Ouditeer jou datastelle -- vind uit watter persoonlike rekords teenwoordig is
  2. Weke 3-6: Bou en toets jou skuringspyplyn
  3. Weke 7-10: Skryf jou bestuursrekords op; kry regshersiening
  4. Weke 11-16: Valideer -- bevestig dat geskuurde datastelle Artikel 10-kwaliteitsreels nakom
  5. 2 Augustus: Afdwingingsdatum -- voldoenende praktyke in plek

Die anonym.legal API koppel in jou huidige pyplyn sonder groot veranderinge. Kontroleer pryse vir volumeplanne. Die FAQ dek algemene Artikel 10-vrae.

Gebruik die GDPR-nakomingskontrolelys vir rekords wat tussen GDPR en Artikel 10 oorvleuel.

Die EU KI-wet is gereed om af te dwing. Sal jou organisasie gereed wees teen 2 Augustus?

Begin met die GDPR-nakomingskontrolelys

Beperkings en Oop Vrae

Dataskuring vir KI-wet-reels is steeds aan die ontwikkel. Hier is die sleutelgapings.

Drempelwaardes is nie gedefinieer nie. Die EU KI-wet se nie watter vlak van skuring "voldoende" is nie. Totdat die Europese KI-kantoor leiding uitgee, staar jy regsrisiko in die gesig. Jy mag nie weet of jou metode reguleerders sal bevredig nie.

Herontkenningsrisiko bly. Navorsing toon groot taalmodelle kan inhoud uit hul datastelle memoriseer en herspeel. Rekords wat skuringstandaarde voor modelontwikkeling geslaag het, kan steeds onttrekbaar wees. Skuring voor ontwikkeling los dit nie ten volle op nie.

Sintetiese rekords het beperkings. Sintetiese generasie behou statistiese patrone maar kan subtiele vooroordele byvoeg of seldsame randgevalle mis. Modelle wat slegs op sintetiese inhoud gebou is, mag swak op werklike insette presteer.

Artikel 10 word steeds geinterpreteer. Die frase "geskikte tegniese maatreels" vereis interpretasie. Vroee DPA-werk oor EU-lidstate het nie op duidelike standaarde vestig nie. Kyk na EDPB-leiding en lidstaatbeslissings deur 2026.

Bronne

  • EU KI-wet, Regulasie (EU) 2024/1689, Artikels 9-17 (hoerisiko-KI-verpligtings), OJ L 2024/1689
  • EU KI-wet, Artikel 10 -- Data en databestuur
  • CNIL KI-datastelgids, Januarie 2026
  • Colorado KI-wet, SB 205, van krag 30 Junie 2026
  • EU KI-wet-tydlyn: verbode praktyke 2 Februarie 2025; hoerisikostelsels 2 Augustus 2026

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.