De Aftelling Is Begonnen
Bijgewerkt voor 2026
De deadline van de EU AI Act is reëel. De regels van Artikel 10 gelden vanaf 2 augustus 2026. Als uw team een hoog-risico AI-systeem bouwt of beheert, handel dan nu. De tijd is kort.
Boetes overtreffen die van de AVG. De maximale boete is €35 miljoen of 7% van de wereldwijde jaaromzet. De AVG heeft een maximum van €20 miljoen of 4%. Geen enkele andere AI-wet kent hogere boetes.
Welke AI-systemen Zijn Hoog-risico?
De AI Act deelt systemen in naar risico. Hoog-risico systemen (Bijlage III) omvatten AI die wordt gebruikt in:
- Onderwijs — toelating tot scholen of beoordeling van studenten
- Werk — cv-screening, sollicitatiegesprekbeoordeling, werknemersmonitoring
- Essentiële diensten — kredietscores, verzekeringsprijzen, noodoproepcentrale
- Rechtshandhaving — misdaadpredictie, biometrische identificatie
- Gezondheidszorg — medische devicesoftware, patiënttriage
- Infrastructuur — energie-, water- of transportbeheer
- Rechtspraak — juridische onderzoekstools, straftoemetingstools
Werkt u in een van deze sectoren? Dan is Artikel 10 op u van toepassing.
Artikel 10: Vier Sleutelregels
Artikel 10 stelt regels voor datasets die worden gebruikt door hoog-risico AI-systemen. Hier zijn de vier voornaamste.
1. Schriftelijk Bestuur
Datasets moeten "passende gegevensbeheers- en managementpraktijken" volgen. U heeft schriftelijke procedures nodig voor verzameling, kwaliteitscontroles en doorlopende evaluatie.
2. Biascontrole
Gegevens moeten worden gecontroleerd op "mogelijke vooroordelen" die kunnen leiden tot oneerlijke uitkomsten. Actief testen is vereist. Het vermijden van opzettelijke vooroordelen is niet voldoende.
3. Nauwkeurigheid en Dekking
Datasets moeten "relevant, voldoende representatief en vrij van fouten" zijn. Webcrawls die bepaalde groepen missen, kunnen hier niet aan voldoen.
4. Bijzondere Categorieën Gegevens
Artikel 10(5) is de meest directe regel. Wanneer een hoog-risico systeem bijzondere categorieën gegevens gebruikt — gezondheid, ras, religie, politiek, biometrie — mag u die alleen verwerken wanneer dat "strikt noodzakelijk" is voor biascontroles. U moet ook "passende waarborgen" toepassen. Gegevensreiniging is een van de sterkste waarborgen die u kunt inzetten.
De kern: de meeste AI-modeldatasets bevatten persoonsgegevens. Artikel 10 zegt: gebruik het minimum dat nodig is, met sterke technische waarborgen.
Zie onze juridische compliancepagina en beveiligingsoverzicht voor details.
Boetecategorieën
De EU AI Act kent drie boetecategorieën. Alle drie overtreffen de AVG voor hetzelfde type overtreding:
| Regelgeving | Maximale boete | Omzetplafond |
|---|---|---|
| AVG | €20 miljoen | 4% wereldwijde omzet |
| EU AI Act (hoog-risico) | €15 miljoen | 3% wereldwijde omzet |
| EU AI Act (verboden) | €35 miljoen | 7% wereldwijde omzet |
Datasetovertreding valt in de hoog-risico categorie (€15 miljoen / 3%). Als een toezichthouder vaststelt dat het gebruik van persoonsgegevens zonder waarborgen een verboden handeling is, geldt de hoogste categorie.
Concreet: €500 miljoen omzet bij 3% = €15 miljoen boete. €5 miljard omzet bij 3% = €150 miljoen boete. Dit zijn echte bedragen, geen theorie.
Waarom Gegevensreiniging Dit Oplost
Behoorlijk gereinigde gegevens vallen buiten het AVG-toepassingsgebied. Dat verwijdert het grootste deel van de last van Artikel 10.
De zware regels — verwerking van bijzondere categorieën, biascontroles, rechten van betrokkenen — gelden alleen wanneer een dataset persoonsgegevens bevat. Verwijder die gegevens eerst. De last verdwijnt grotendeels.
De CNIL (de Franse gegevensbeschermingsautoriteit) maakte dit begin 2026 duidelijk. Haar AI-richtlijnen stellen: gegevensreiniging van persoonsgegevens die niet nodig zijn voor modelprestaties is de primaire technische maatregel voor Artikel 10.
Dit is geen randstandpunt. Het is het mainstream standpunt van de toonaangevende AI-toezichthouder van de EU.
Wat Gegevensreiniging in de Praktijk Betekent
Het reinigen van AI-modeldatasets verschilt van het reinigen van live productiegegevens. Modeldatasets kunnen bevatten:
- Documenten met PII — contracten, e-mails, rapporten, supporttickets
- Gestructureerde gegevens — klanttabellen die worden gebruikt voor voorspellende modellen
- Gelabelde content — afbeeldingen of tekst met notities die persoonsgegevens bevatten
- Synthetische gegevens — waarbij generatie nog steeds persoonlijke patronen kan bewaren
U moet PII detecteren in al deze formaten. Eén type missen stelt de hele dataset bloot. Een contract waarbij namen zijn verwijderd maar volledige adressen nog aanwezig zijn, leert een model om locatie te koppelen aan demografische patronen.
De anonym.legal API verwerkt batches voor grote AI-datasets. Het detecteert 285+ entiteitstypen in 48 talen. Voor Europese AI-bedrijven met meertalige datasets is taaloverkoepelende dekking cruciaal. Een lacune in één taal creëert EU AI Act-risico voor het hele systeem.
Voor meer over entiteitsdetectie, zie de token system-gids en entiteitstypenreferentie.
Praktische Stappen: Uw Dataset Reinigen
Stap 1: Audit eerst
Voer een detectierun uit voordat u iets reinigt. Dit vertelt u welke PII aanwezig is:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer UW_API_SLEUTEL" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
De reactie geeft elke gedetecteerde entiteit met zijn type, positie en score. Voer dit uit op al uw bestanden om de volledige omvang te zien voordat u begint.
Stap 2: Batchreinigen
Voor grote datasets gebruikt u het batch-eindpunt om veel bestanden tegelijk te verwerken:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Klaar: {result['id']} — {len(result['items'])} entiteiten verwijderd")
Stap 3: Bewaar documentatie
Artikel 10 vereist schriftelijke vastlegging van wat u heeft gedaan. Bewaar voor elke dataset:
- Het gebruikte detectiemodel en de versie
- Welke entiteitstypen werden gevonden en hoe elk werd vervangen
- Aantallen verwijderde entiteiten per dataset
- De datum van reiniging en de gebruikte datasetversie
Dit voldoet aan de vereiste "gegevensbeheers- en managementpraktijken" in Artikel 10(2)(a).
Veelgestelde Vragen
Verslechtert reiniging de modelkwaliteit?
In de meeste gevallen niet. Het model leert patronen van tekststructuur, niet van persoonlijke details. Namen, telefoonnummers en adressen kunnen worden vervangen door tijdelijke aanduidingen zoals [NAAM] of [TELEFOON] en het model leert nog steeds dezelfde patronen. Veel onderzoeksteams hebben vastgesteld dat gereinigde datasets modellen van gelijke kwaliteit opleveren. De sleutel is het gebruik van consistente tijdelijke aanduidingen zodat het model een duidelijk patroon ziet.
Wat als mijn dataset zeer groot is?
Gebruik de batch-API. Deze verwerkt grote volumes parallel. De prijspagina toont plannen voor gebruik op grote schaal. Veel teams verwerken maandelijks miljoenen records.
Wat betreft niet-Engelstalige datasets?
De API ondersteunt 48 talen. Elke taal gebruikt een detectiemodel dat is getraind op die taal. Dit betekent dat Duits, Frans, Spaans, Japans en andere talen allemaal worden gedekt. Zie de FAQ voor een volledige talenlijst. Meertalige datasets worden ook ondersteund — u kunt de taal per document opgeven in het batchverzoek.
Colorado AI Act: Twee Deadlines
De Colorado AI Act treedt in werking op 30 juni 2026 — vijf weken voor de EU-deadline. Ze stelt vergelijkbare regels voor "hoog-risico AI-systemen" onder staatsrecht. De focus ligt hoofdzakelijk op bias en discriminatie.
Teams in zowel de EU als Colorado staan voor twee deadlines tegelijk. Het reinigen van uw datasets helpt aan beide wetten te voldoen: Artikel 10 (EU) en de anti-biasregels van Colorado. De technische stappen zijn hetzelfde.
Handel Nu
Vijf maanden is voldoende tijd — als u vandaag begint. Het is niet voldoende als u wacht tot juni.
Een praktische tijdlijn:
- Weken 1–2: Audit uw datasets — ontdek welke persoonsgegevens aanwezig zijn
- Weken 3–6: Bouw en test uw reinigingspipeline
- Weken 7–10: Schrijf uw bestuurdocumentatie; vraag juridisch advies
- Weken 11–16: Valideer — bevestig dat gereinigde datasets voldoen aan de kwaliteitseisen van Artikel 10
- 2 augustus: Handhavingsdatum — conforme praktijken in werking
De anonym.legal API sluit aan op uw huidige pipeline zonder grote wijzigingen. Controleer de prijzen voor volumeplannen. De FAQ behandelt veelgestelde vragen over Artikel 10.
Gebruik de AVG-compliancechecklist voor gegevens die overlappen tussen de AVG en Artikel 10.
De EU AI Act staat klaar om te handhaven. Zal uw organisatie gereed zijn op 2 augustus?
Begin met de AVG-compliancechecklist →
Beperkingen en Open Vragen
Gegevensreiniging voor AI Act-regels is nog in ontwikkeling. Hier zijn de voornaamste lacunes.
Drempelwaarden zijn niet gedefinieerd. De EU AI Act zegt niet welk niveau van reiniging "voldoende" is. Totdat het European AI Office richtlijnen uitvaardigt, loopt u juridisch risico. U weet misschien niet of uw methode toezichthouders zal tevredenstellen.
Her-identificatierisico blijft bestaan. Onderzoek toont aan dat grote taalmodellen content uit hun trainingsdata kunnen memoriseren en herhalen. Gegevens die reinigingsnormen hebben doorstaan vóór modelontwikkeling kunnen alsnog extraheerbaar zijn. Reiniging voor ontwikkeling lost dit niet volledig op.
Synthetische gegevens kennen beperkingen. Synthetische generatie behoudt statistische patronen maar kan subtiele vooroordelen toevoegen of zeldzame randgevallen missen. Modellen die uitsluitend op synthetische content zijn gebouwd, kunnen slecht presteren op echte invoer.
Artikel 10 wordt nog geïnterpreteerd. De formulering "passende technische maatregelen" vraagt om interpretatie. Vroeg toezichthouderswerk in EU-lidstaten heeft nog geen duidelijke normen vastgesteld. Volg de EDPB-richtlijnen en beslissingen van lidstaten gedurende 2026.
Bronnen
- EU AI Act, Verordening (EU) 2024/1689, Artikelen 9–17 (verplichtingen hoog-risico AI), PB L 2024/1689
- EU AI Act, Artikel 10 — Gegevens en gegevensbeheer
- CNIL AI-datasetrichtlijnen, januari 2026
- Colorado AI Act, SB 205, van kracht 30 juni 2026
- EU AI Act-tijdlijn: verboden praktijken 2 februari 2025; hoog-risico systemen 2 augustus 2026