De Aftelling Is Begonnen

Bijgewerkt voor 2026

De deadline van de EU AI Act is reëel. De regels van Artikel 10 gelden vanaf 2 augustus 2026. Als uw team een hoog-risico AI-systeem bouwt of beheert, handel dan nu. De tijd is kort.

Boetes overtreffen die van de AVG. De maximale boete is €35 miljoen of 7% van de wereldwijde jaaromzet. De AVG heeft een maximum van €20 miljoen of 4%. Geen enkele andere AI-wet kent hogere boetes.

Welke AI-systemen Zijn Hoog-risico?

De AI Act deelt systemen in naar risico. Hoog-risico systemen (Bijlage III) omvatten AI die wordt gebruikt in:

Onderwijs — toelating tot scholen of beoordeling van studenten
Werk — cv-screening, sollicitatiegesprekbeoordeling, werknemersmonitoring
Essentiële diensten — kredietscores, verzekeringsprijzen, noodoproepcentrale
Rechtshandhaving — misdaadpredictie, biometrische identificatie
Gezondheidszorg — medische devicesoftware, patiënttriage
Infrastructuur — energie-, water- of transportbeheer
Rechtspraak — juridische onderzoekstools, straftoemetingstools

Werkt u in een van deze sectoren? Dan is Artikel 10 op u van toepassing.

Artikel 10: Vier Sleutelregels

Artikel 10 stelt regels voor datasets die worden gebruikt door hoog-risico AI-systemen. Hier zijn de vier voornaamste.

1. Schriftelijk Bestuur

Datasets moeten "passende gegevensbeheers- en managementpraktijken" volgen. U heeft schriftelijke procedures nodig voor verzameling, kwaliteitscontroles en doorlopende evaluatie.

2. Biascontrole

Gegevens moeten worden gecontroleerd op "mogelijke vooroordelen" die kunnen leiden tot oneerlijke uitkomsten. Actief testen is vereist. Het vermijden van opzettelijke vooroordelen is niet voldoende.

3. Nauwkeurigheid en Dekking

Datasets moeten "relevant, voldoende representatief en vrij van fouten" zijn. Webcrawls die bepaalde groepen missen, kunnen hier niet aan voldoen.

4. Bijzondere Categorieën Gegevens

Artikel 10(5) is de meest directe regel. Wanneer een hoog-risico systeem bijzondere categorieën gegevens gebruikt — gezondheid, ras, religie, politiek, biometrie — mag u die alleen verwerken wanneer dat "strikt noodzakelijk" is voor biascontroles. U moet ook "passende waarborgen" toepassen. Gegevensreiniging is een van de sterkste waarborgen die u kunt inzetten.

De kern: de meeste AI-modeldatasets bevatten persoonsgegevens. Artikel 10 zegt: gebruik het minimum dat nodig is, met sterke technische waarborgen.

Zie onze juridische compliancepagina en beveiligingsoverzicht voor details.

Boetecategorieën

De EU AI Act kent drie boetecategorieën. Alle drie overtreffen de AVG voor hetzelfde type overtreding:

Regelgeving	Maximale boete	Omzetplafond
AVG	€20 miljoen	4% wereldwijde omzet
EU AI Act (hoog-risico)	€15 miljoen	3% wereldwijde omzet
EU AI Act (verboden)	€35 miljoen	7% wereldwijde omzet

Datasetovertreding valt in de hoog-risico categorie (€15 miljoen / 3%). Als een toezichthouder vaststelt dat het gebruik van persoonsgegevens zonder waarborgen een verboden handeling is, geldt de hoogste categorie.

Concreet: €500 miljoen omzet bij 3% = €15 miljoen boete. €5 miljard omzet bij 3% = €150 miljoen boete. Dit zijn echte bedragen, geen theorie.

Waarom Gegevensreiniging Dit Oplost

Behoorlijk gereinigde gegevens vallen buiten het AVG-toepassingsgebied. Dat verwijdert het grootste deel van de last van Artikel 10.

De zware regels — verwerking van bijzondere categorieën, biascontroles, rechten van betrokkenen — gelden alleen wanneer een dataset persoonsgegevens bevat. Verwijder die gegevens eerst. De last verdwijnt grotendeels.

De CNIL (de Franse gegevensbeschermingsautoriteit) maakte dit begin 2026 duidelijk. Haar AI-richtlijnen stellen: gegevensreiniging van persoonsgegevens die niet nodig zijn voor modelprestaties is de primaire technische maatregel voor Artikel 10.

Dit is geen randstandpunt. Het is het mainstream standpunt van de toonaangevende AI-toezichthouder van de EU.

Wat Gegevensreiniging in de Praktijk Betekent

Het reinigen van AI-modeldatasets verschilt van het reinigen van live productiegegevens. Modeldatasets kunnen bevatten:

Documenten met PII — contracten, e-mails, rapporten, supporttickets
Gestructureerde gegevens — klanttabellen die worden gebruikt voor voorspellende modellen
Gelabelde content — afbeeldingen of tekst met notities die persoonsgegevens bevatten
Synthetische gegevens — waarbij generatie nog steeds persoonlijke patronen kan bewaren

U moet PII detecteren in al deze formaten. Eén type missen stelt de hele dataset bloot. Een contract waarbij namen zijn verwijderd maar volledige adressen nog aanwezig zijn, leert een model om locatie te koppelen aan demografische patronen.

De anonym.legal API verwerkt batches voor grote AI-datasets. Het detecteert 285+ entiteitstypen in 48 talen. Voor Europese AI-bedrijven met meertalige datasets is taaloverkoepelende dekking cruciaal. Een lacune in één taal creëert EU AI Act-risico voor het hele systeem.

Voor meer over entiteitsdetectie, zie de token system-gids en entiteitstypenreferentie.

Praktische Stappen: Uw Dataset Reinigen

Stap 1: Audit eerst

Voer een detectierun uit voordat u iets reinigt. Dit vertelt u welke PII aanwezig is:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer UW_API_SLEUTEL" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

De reactie geeft elke gedetecteerde entiteit met zijn type, positie en score. Voer dit uit op al uw bestanden om de volledige omvang te zien voordat u begint.

Stap 2: Batchreinigen

Voor grote datasets gebruikt u het batch-eindpunt om veel bestanden tegelijk te verwerken:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Klaar: {result['id']} — {len(result['items'])} entiteiten verwijderd")

Stap 3: Bewaar documentatie

Artikel 10 vereist schriftelijke vastlegging van wat u heeft gedaan. Bewaar voor elke dataset:

Het gebruikte detectiemodel en de versie
Welke entiteitstypen werden gevonden en hoe elk werd vervangen
Aantallen verwijderde entiteiten per dataset
De datum van reiniging en de gebruikte datasetversie

Dit voldoet aan de vereiste "gegevensbeheers- en managementpraktijken" in Artikel 10(2)(a).

Veelgestelde Vragen

Verslechtert reiniging de modelkwaliteit?

In de meeste gevallen niet. Het model leert patronen van tekststructuur, niet van persoonlijke details. Namen, telefoonnummers en adressen kunnen worden vervangen door tijdelijke aanduidingen zoals [NAAM] of [TELEFOON] en het model leert nog steeds dezelfde patronen. Veel onderzoeksteams hebben vastgesteld dat gereinigde datasets modellen van gelijke kwaliteit opleveren. De sleutel is het gebruik van consistente tijdelijke aanduidingen zodat het model een duidelijk patroon ziet.

Wat als mijn dataset zeer groot is?

Gebruik de batch-API. Deze verwerkt grote volumes parallel. De prijspagina toont plannen voor gebruik op grote schaal. Veel teams verwerken maandelijks miljoenen records.

Wat betreft niet-Engelstalige datasets?

De API ondersteunt 48 talen. Elke taal gebruikt een detectiemodel dat is getraind op die taal. Dit betekent dat Duits, Frans, Spaans, Japans en andere talen allemaal worden gedekt. Zie de FAQ voor een volledige talenlijst. Meertalige datasets worden ook ondersteund — u kunt de taal per document opgeven in het batchverzoek.

Colorado AI Act: Twee Deadlines

De Colorado AI Act treedt in werking op 30 juni 2026 — vijf weken voor de EU-deadline. Ze stelt vergelijkbare regels voor "hoog-risico AI-systemen" onder staatsrecht. De focus ligt hoofdzakelijk op bias en discriminatie.

Teams in zowel de EU als Colorado staan voor twee deadlines tegelijk. Het reinigen van uw datasets helpt aan beide wetten te voldoen: Artikel 10 (EU) en de anti-biasregels van Colorado. De technische stappen zijn hetzelfde.

Handel Nu

Vijf maanden is voldoende tijd — als u vandaag begint. Het is niet voldoende als u wacht tot juni.

Een praktische tijdlijn:

Weken 1–2: Audit uw datasets — ontdek welke persoonsgegevens aanwezig zijn
Weken 3–6: Bouw en test uw reinigingspipeline
Weken 7–10: Schrijf uw bestuurdocumentatie; vraag juridisch advies
Weken 11–16: Valideer — bevestig dat gereinigde datasets voldoen aan de kwaliteitseisen van Artikel 10
2 augustus: Handhavingsdatum — conforme praktijken in werking

De anonym.legal API sluit aan op uw huidige pipeline zonder grote wijzigingen. Controleer de prijzen voor volumeplannen. De FAQ behandelt veelgestelde vragen over Artikel 10.

Gebruik de AVG-compliancechecklist voor gegevens die overlappen tussen de AVG en Artikel 10.

De EU AI Act staat klaar om te handhaven. Zal uw organisatie gereed zijn op 2 augustus?

Begin met de AVG-compliancechecklist →

Beperkingen en Open Vragen

Gegevensreiniging voor AI Act-regels is nog in ontwikkeling. Hier zijn de voornaamste lacunes.

Drempelwaarden zijn niet gedefinieerd. De EU AI Act zegt niet welk niveau van reiniging "voldoende" is. Totdat het European AI Office richtlijnen uitvaardigt, loopt u juridisch risico. U weet misschien niet of uw methode toezichthouders zal tevredenstellen.

Her-identificatierisico blijft bestaan. Onderzoek toont aan dat grote taalmodellen content uit hun trainingsdata kunnen memoriseren en herhalen. Gegevens die reinigingsnormen hebben doorstaan vóór modelontwikkeling kunnen alsnog extraheerbaar zijn. Reiniging voor ontwikkeling lost dit niet volledig op.

Synthetische gegevens kennen beperkingen. Synthetische generatie behoudt statistische patronen maar kan subtiele vooroordelen toevoegen of zeldzame randgevallen missen. Modellen die uitsluitend op synthetische content zijn gebouwd, kunnen slecht presteren op echte invoer.

Artikel 10 wordt nog geïnterpreteerd. De formulering "passende technische maatregelen" vraagt om interpretatie. Vroeg toezichthouderswerk in EU-lidstaten heeft nog geen duidelijke normen vastgesteld. Volg de EDPB-richtlijnen en beslissingen van lidstaten gedurende 2026.

Bronnen

EU AI Act, Verordening (EU) 2024/1689, Artikelen 9–17 (verplichtingen hoog-risico AI), PB L 2024/1689
EU AI Act, Artikel 10 — Gegevens en gegevensbeheer
CNIL AI-datasetrichtlijnen, januari 2026
Colorado AI Act, SB 205, van kracht 30 juni 2026
EU AI Act-tijdlijn: verboden praktijken 2 februari 2025; hoog-risico systemen 2 augustus 2026

EU AI Act Augustus 2026: Trainingsdata Anonimiseren om Artikel 10 na te Leven

De Aftelling Is Begonnen

Welke AI-systemen Zijn Hoog-risico?

Artikel 10: Vier Sleutelregels

Boetecategorieën

Waarom Gegevensreiniging Dit Oplost

Wat Gegevensreiniging in de Praktijk Betekent

Praktische Stappen: Uw Dataset Reinigen

Veelgestelde Vragen

Colorado AI Act: Twee Deadlines

Handel Nu

Beperkingen en Open Vragen

Bronnen

Gerelateerde Artikelen

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Klaar om uw gegevens te beschermen?

EU AI Act Augustus 2026: Trainingsdata Anonimiseren om Artikel 10 na te Leven

De Aftelling Is Begonnen

Welke AI-systemen Zijn Hoog-risico?

Artikel 10: Vier Sleutelregels

Boetecategorieën

Waarom Gegevensreiniging Dit Oplost

Wat Gegevensreiniging in de Praktijk Betekent

Praktische Stappen: Uw Dataset Reinigen

Veelgestelde Vragen

Colorado AI Act: Twee Deadlines

Handel Nu

Beperkingen en Open Vragen

Bronnen

Gerelateerde Artikelen

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Klaar om uw gegevens te beschermen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow