Die Aftelling Het Begin
Bygewerk vir 2026
Die EU KI-wet-sperdatum is werklik. Artikel 10-reels geld vanaf 2 Augustus 2026. As jou span 'n hoerisiko-KI-stelsel bou of laat loop, tree nou op. Tyd is kort.
Boetes gaan hoer as GDPR. Die maksimumboete is €35 miljoen of 7% van globale jaarlikse omset. GDPR se plafon is €20 miljoen of 4%. Geen ander KI-wet het hoer boetes nie.
Watter KI-stelsels Is Hoeerisiko?
Die KI-wet sorteer stelsels volgens risiko. Hoerisikostelsels (Bylae III) dek KI wat gebruik word in:
- Onderwys -- skooltoelating of studentpunte
- Werk -- CV-sifting, onderhoudpunte, werknemermoniteering
- Sleuteldienste -- krediettelling, versekeringspryse, nooddiensuitstuur
- Wetstoepasssing -- misdaadvoorspelling, biometriese ID
- Gesondheidsorg -- mediese toestefsagteware, pasienttriage
- Infrastruktuur -- energie-, water- of vervoerbestuur
- Reg -- regsnavorsingsgereedskap, vonnisgereedskap
Werk jy in enige van hierdie? Artikel 10 geld vir jou.
Artikel 10: Vier Sleutelreels
Artikel 10 stel reels vir datastelle wat deur hoerisiko-KI-stelsels gebruik word. Hier is die vier hoofones.
1. Geskrewe Bestuur
Datastelle moet "geskikte databeheer- en bestuurspraktyke" volg. Jy benodig geskrewe stappe vir insameling, kwaliteitstoetse en deurlopende hersiening.
2. Vooroordeel-toetsing
Rekords moet nagegaan word vir "moontlike vooroordele" wat onregverdige uitvoere kan veroorsaak. Aktiewe toetsing is vereis. Die vermyding van opsetlike vooroordeel is nie genoeg nie.
3. Akkuraatheid en Dekking
Datastelle moet "relevant, voldoende verteenwoordigend en vry van foute" wees. Webkruipe wat sekere groepe mis, mag hierdie toets nie slaag nie.
4. Spesiale Rektipes
Artikel 10(5) is die mees direkte reel. Wanneer 'n hoerisiko-stelsel spesiale kategoriereekords gebruik -- gesondheid, ras, godsdiens, politiek, biometrie -- mag jy dit slegs verwerk wanneer dit "streng noodsaaklik" is vir vooroordeel-toetse. Jy moet ook "geskikte sekuriteitswaarborge" toepas. Dataskuring is een van die sterkste sekuriteitswaarborge wat jy kan gebruik.
Die kern: die meeste KI-modeldatastelle bevat persoonlike rekords. Artikel 10 se gebruik die minimum wat nodig is, met sterk tegniese sekuriteitswaarborge.
Sien ons regsnakoming-bladsy en sekuriteitsoorsig vir besonderhede.
Boetevlakke
Die EU KI-wet het drie boetevlakke. Almal oorskry GDPR vir dieselfde tipe skending:
| Regulasie | Maks Boete | Omsetplafon |
|---|---|---|
| GDPR | €20 miljoen | 4% globale omset |
| EU KI-wet (hoerisiko) | €15 miljoen | 3% globale omset |
| EU KI-wet (verbied) | €35 miljoen | 7% globale omset |
Datastell-skending val in die hoerisiko-vlak (€15M / 3%). As 'n reguleerder bevind dat die gebruik van persoonlike rekords sonder sekuriteitswaarborge 'n verbode handeling is, geld die toppervlak.
Werklike voorbeelde: €500M omset teen 3% = €15M boete. €5B omset teen 3% = €150M boete. Dit is werklike getalle, nie teorie nie.
Waarom Dataskuring Dit Oplos
Behoorlik geskuurde rekords val buite GDPR-omvang. Dit verwyder die meeste van Artikel 10 se las.
Die harde reels -- spesiale kategorie-hantering, vooroordeel-toetse, datashefrechte -- geld slegs wanneer 'n datastel persoonlike rekords bevat. Verwyder eers daardie rekords. Die las verdwyn grotendeels.
Die CNIL (Franse data-owerheid) het dit vroeg in 2026 duidelik gemaak. Sy KI-leiding se: dataskuring van persoonlike rekords wat nie vir modelwerkvermoee nodig is nie, is die primere tegniese maatreel vir Artikel 10.
Dit is nie 'n kantmening nie. Dit is die hoofstroombenadering van die EU se topste KI-reguleerder.
Wat Dataskuring In Praktyk Beteken
Die skuring van KI-modeldatastelle is nie dieselfde as die skuring van lewendige produksierekords nie. Modeldatastelle kan bevat:
- Dokumente met PII -- kontrakte, e-posse, verslae, ondersteuningskaartjies
- Gestruktureerde rekords -- klientetabelle wat gebruik word om voorspellende modelle te bou
- Gelabelde inhoud -- beelde of teks met notas wat persoonlike data insluit
- Sintetiese rekords -- waar generasie steeds persoonlike patrone mag bewaar
Jy moet PII in al hierdie formate bespeur. Om een tipe mis te loop stel die hele datastel bloot. 'n Kontrak met name verwyder maar volledige adresse steeds intact sal 'n model leer om ligging aan demografiese patrone te koppel.
Die anonym.legal API hanteer bondelprosessering vir groot KI-datastelle. Dit bespeur 285+ entiteitstipes oor 48 tale. Vir Europese KI-maatskappye met veeltalige datastelle is kruistaaldekking krities. 'n Gaping in een taal skep EU KI-wet-risiko oor die hele stelsel.
Vir meer oor entiteitsopsporing, sien die tekenstelselssgids en entiteitstipe-verwysing.
Praktiese Stappe: Skuur Jou Datastel
Stap 1: Ouditeer eerste
Voer 'n opspooringsoordrag uit voordat jy enigiets skuur. Dit vertel jou watter PII teenwoordig is:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer JOU_API_SLEUTEL" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Die reaksie lys elke bespeurde entiteit met sy tipe, posisie en telling. Voer dit oor al jou leers uit om die volle omvang te sien voor jy begin.
Stap 2: Bondel-skuur
Vir groot datastelle, gebruik die bondel-eindpunt om baie leers gelyktydig te verwerk:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Klaar: {result['id']} -- {len(result['items'])} entiteite verwyder")
Stap 3: Hou rekords
Artikel 10 vereis geskrewe rekords van wat jy gedoen het. Vir elke datastel, bewaar:
- Die opspoormodel en weergawe wat gebruik is
- Watter entiteitstipes gevind is en hoe elk vervang is
- Entiteitstellings verwyder per datastel
- Die datum van skuring en die databasis-weergawe wat gebruik is
Dit voldoen aan die "databeheer- en bestuurspraktyke"-vereiste in Artikel 10(2)(a).
Algemene Vrae
Breek skuring modelkwaliteit?
In die meeste gevalle nie. Die model leer patrone van teksstruktuur, nie persoonlike besonderhede nie. Name, telefoonnommers en adresse kan vervang word met plekhouers soos [NAAM] of [FOON] en die model leer steeds dieselfde patrone. Baie navorsingsspanne het bevind dat geskuurde datastelle modelle van gelyke kwaliteit produseer. Die sleutel is om konsekwente plekhouers te gebruik sodat die model 'n duidelike patroon sien.
Wat as my datastel baie groot is?
Gebruik die bondel-API. Dit hanteer groot volumes parallel. Die prysbladsy toon planne vir hoevolume-gebruiksgevalle. Baie spanne verwerk miljoene rekords per maand.
Wat van nie-Engelse datastelle?
Die API ondersteun 48 tale. Elke taal gebruik 'n opspoormodel wat op daardie taal opgelei is. Dit beteken Duits, Frans, Spaans, Japannees en ander is almal gedek. Sien die FAQ vir 'n volledige taallys. Gemengde-taal-datastelle word ook ondersteun -- jy kan die taal per dokument in die bondelversoek spesifiseer.
Colorado KI-wet: Twee Sperdatums
Colorado se KI-wet tree op 30 Junie 2026 in werking -- vyf weke voor die EU-sperdatum. Dit stel soortgelyke reels vir "hoerisiko-KI-stelsels" onder staatsreg. Die hooffokus is vooroordeel en diskriminasie.
Spanne in beide die EU en Colorado staar twee sperdatums gelyktydig in die gesig. Die skuring van jou datastelle help om beide wette na te kom: Artikel 10 (EU) en Colorado se anti-vooroordeel-reels. Die tegniese stappe is dieselfde.
Tree Nou Op
Vyf maande is genoeg tyd -- as jy vandag begin. Dit is nie genoeg as jy tot Junie wag nie.
'n Praktiese tydlyn:
- Weke 1-2: Ouditeer jou datastelle -- vind uit watter persoonlike rekords teenwoordig is
- Weke 3-6: Bou en toets jou skuringspyplyn
- Weke 7-10: Skryf jou bestuursrekords op; kry regshersiening
- Weke 11-16: Valideer -- bevestig dat geskuurde datastelle Artikel 10-kwaliteitsreels nakom
- 2 Augustus: Afdwingingsdatum -- voldoenende praktyke in plek
Die anonym.legal API koppel in jou huidige pyplyn sonder groot veranderinge. Kontroleer pryse vir volumeplanne. Die FAQ dek algemene Artikel 10-vrae.
Gebruik die GDPR-nakomingskontrolelys vir rekords wat tussen GDPR en Artikel 10 oorvleuel.
Die EU KI-wet is gereed om af te dwing. Sal jou organisasie gereed wees teen 2 Augustus?
Begin met die GDPR-nakomingskontrolelys
Beperkings en Oop Vrae
Dataskuring vir KI-wet-reels is steeds aan die ontwikkel. Hier is die sleutelgapings.
Drempelwaardes is nie gedefinieer nie. Die EU KI-wet se nie watter vlak van skuring "voldoende" is nie. Totdat die Europese KI-kantoor leiding uitgee, staar jy regsrisiko in die gesig. Jy mag nie weet of jou metode reguleerders sal bevredig nie.
Herontkenningsrisiko bly. Navorsing toon groot taalmodelle kan inhoud uit hul datastelle memoriseer en herspeel. Rekords wat skuringstandaarde voor modelontwikkeling geslaag het, kan steeds onttrekbaar wees. Skuring voor ontwikkeling los dit nie ten volle op nie.
Sintetiese rekords het beperkings. Sintetiese generasie behou statistiese patrone maar kan subtiele vooroordele byvoeg of seldsame randgevalle mis. Modelle wat slegs op sintetiese inhoud gebou is, mag swak op werklike insette presteer.
Artikel 10 word steeds geinterpreteer. Die frase "geskikte tegniese maatreels" vereis interpretasie. Vroee DPA-werk oor EU-lidstate het nie op duidelike standaarde vestig nie. Kyk na EDPB-leiding en lidstaatbeslissings deur 2026.
Bronne
- EU KI-wet, Regulasie (EU) 2024/1689, Artikels 9-17 (hoerisiko-KI-verpligtings), OJ L 2024/1689
- EU KI-wet, Artikel 10 -- Data en databestuur
- CNIL KI-datastelgids, Januarie 2026
- Colorado KI-wet, SB 205, van krag 30 Junie 2026
- EU KI-wet-tydlyn: verbode praktyke 2 Februarie 2025; hoerisikostelsels 2 Augustus 2026