anonym.legal
Terug naar BlogGDPR & Naleving

EU AI Act Augustus 2026: Trainingsdata Anonimiseren om Artikel 10 na te Leven

De volledige handhaving van de EU AI Act begint op 2 augustus 2026. Boetes tot €35 miljoen of 7% van de wereldwijde omzet. Artikel 10 vereist anonimisering van trainingsdata.

March 16, 20269 min lezen
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

De Aftelling Is Begonnen

Bijgewerkt voor 2026

De deadline van de EU AI Act is reëel. De regels van Artikel 10 gelden vanaf 2 augustus 2026. Als uw team een hoog-risico AI-systeem bouwt of beheert, handel dan nu. De tijd is kort.

Boetes overtreffen die van de AVG. De maximale boete is €35 miljoen of 7% van de wereldwijde jaaromzet. De AVG heeft een maximum van €20 miljoen of 4%. Geen enkele andere AI-wet kent hogere boetes.

Welke AI-systemen Zijn Hoog-risico?

De AI Act deelt systemen in naar risico. Hoog-risico systemen (Bijlage III) omvatten AI die wordt gebruikt in:

  • Onderwijs — toelating tot scholen of beoordeling van studenten
  • Werk — cv-screening, sollicitatiegesprekbeoordeling, werknemersmonitoring
  • Essentiële diensten — kredietscores, verzekeringsprijzen, noodoproepcentrale
  • Rechtshandhaving — misdaadpredictie, biometrische identificatie
  • Gezondheidszorg — medische devicesoftware, patiënttriage
  • Infrastructuur — energie-, water- of transportbeheer
  • Rechtspraak — juridische onderzoekstools, straftoemetingstools

Werkt u in een van deze sectoren? Dan is Artikel 10 op u van toepassing.

Artikel 10: Vier Sleutelregels

Artikel 10 stelt regels voor datasets die worden gebruikt door hoog-risico AI-systemen. Hier zijn de vier voornaamste.

1. Schriftelijk Bestuur

Datasets moeten "passende gegevensbeheers- en managementpraktijken" volgen. U heeft schriftelijke procedures nodig voor verzameling, kwaliteitscontroles en doorlopende evaluatie.

2. Biascontrole

Gegevens moeten worden gecontroleerd op "mogelijke vooroordelen" die kunnen leiden tot oneerlijke uitkomsten. Actief testen is vereist. Het vermijden van opzettelijke vooroordelen is niet voldoende.

3. Nauwkeurigheid en Dekking

Datasets moeten "relevant, voldoende representatief en vrij van fouten" zijn. Webcrawls die bepaalde groepen missen, kunnen hier niet aan voldoen.

4. Bijzondere Categorieën Gegevens

Artikel 10(5) is de meest directe regel. Wanneer een hoog-risico systeem bijzondere categorieën gegevens gebruikt — gezondheid, ras, religie, politiek, biometrie — mag u die alleen verwerken wanneer dat "strikt noodzakelijk" is voor biascontroles. U moet ook "passende waarborgen" toepassen. Gegevensreiniging is een van de sterkste waarborgen die u kunt inzetten.

De kern: de meeste AI-modeldatasets bevatten persoonsgegevens. Artikel 10 zegt: gebruik het minimum dat nodig is, met sterke technische waarborgen.

Zie onze juridische compliancepagina en beveiligingsoverzicht voor details.

Boetecategorieën

De EU AI Act kent drie boetecategorieën. Alle drie overtreffen de AVG voor hetzelfde type overtreding:

RegelgevingMaximale boeteOmzetplafond
AVG€20 miljoen4% wereldwijde omzet
EU AI Act (hoog-risico)€15 miljoen3% wereldwijde omzet
EU AI Act (verboden)€35 miljoen7% wereldwijde omzet

Datasetovertreding valt in de hoog-risico categorie (€15 miljoen / 3%). Als een toezichthouder vaststelt dat het gebruik van persoonsgegevens zonder waarborgen een verboden handeling is, geldt de hoogste categorie.

Concreet: €500 miljoen omzet bij 3% = €15 miljoen boete. €5 miljard omzet bij 3% = €150 miljoen boete. Dit zijn echte bedragen, geen theorie.

Waarom Gegevensreiniging Dit Oplost

Behoorlijk gereinigde gegevens vallen buiten het AVG-toepassingsgebied. Dat verwijdert het grootste deel van de last van Artikel 10.

De zware regels — verwerking van bijzondere categorieën, biascontroles, rechten van betrokkenen — gelden alleen wanneer een dataset persoonsgegevens bevat. Verwijder die gegevens eerst. De last verdwijnt grotendeels.

De CNIL (de Franse gegevensbeschermingsautoriteit) maakte dit begin 2026 duidelijk. Haar AI-richtlijnen stellen: gegevensreiniging van persoonsgegevens die niet nodig zijn voor modelprestaties is de primaire technische maatregel voor Artikel 10.

Dit is geen randstandpunt. Het is het mainstream standpunt van de toonaangevende AI-toezichthouder van de EU.

Wat Gegevensreiniging in de Praktijk Betekent

Het reinigen van AI-modeldatasets verschilt van het reinigen van live productiegegevens. Modeldatasets kunnen bevatten:

  • Documenten met PII — contracten, e-mails, rapporten, supporttickets
  • Gestructureerde gegevens — klanttabellen die worden gebruikt voor voorspellende modellen
  • Gelabelde content — afbeeldingen of tekst met notities die persoonsgegevens bevatten
  • Synthetische gegevens — waarbij generatie nog steeds persoonlijke patronen kan bewaren

U moet PII detecteren in al deze formaten. Eén type missen stelt de hele dataset bloot. Een contract waarbij namen zijn verwijderd maar volledige adressen nog aanwezig zijn, leert een model om locatie te koppelen aan demografische patronen.

De anonym.legal API verwerkt batches voor grote AI-datasets. Het detecteert 285+ entiteitstypen in 48 talen. Voor Europese AI-bedrijven met meertalige datasets is taaloverkoepelende dekking cruciaal. Een lacune in één taal creëert EU AI Act-risico voor het hele systeem.

Voor meer over entiteitsdetectie, zie de token system-gids en entiteitstypenreferentie.

Praktische Stappen: Uw Dataset Reinigen

Stap 1: Audit eerst

Voer een detectierun uit voordat u iets reinigt. Dit vertelt u welke PII aanwezig is:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer UW_API_SLEUTEL" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

De reactie geeft elke gedetecteerde entiteit met zijn type, positie en score. Voer dit uit op al uw bestanden om de volledige omvang te zien voordat u begint.

Stap 2: Batchreinigen

Voor grote datasets gebruikt u het batch-eindpunt om veel bestanden tegelijk te verwerken:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Klaar: {result['id']} — {len(result['items'])} entiteiten verwijderd")

Stap 3: Bewaar documentatie

Artikel 10 vereist schriftelijke vastlegging van wat u heeft gedaan. Bewaar voor elke dataset:

  • Het gebruikte detectiemodel en de versie
  • Welke entiteitstypen werden gevonden en hoe elk werd vervangen
  • Aantallen verwijderde entiteiten per dataset
  • De datum van reiniging en de gebruikte datasetversie

Dit voldoet aan de vereiste "gegevensbeheers- en managementpraktijken" in Artikel 10(2)(a).

Veelgestelde Vragen

Verslechtert reiniging de modelkwaliteit?

In de meeste gevallen niet. Het model leert patronen van tekststructuur, niet van persoonlijke details. Namen, telefoonnummers en adressen kunnen worden vervangen door tijdelijke aanduidingen zoals [NAAM] of [TELEFOON] en het model leert nog steeds dezelfde patronen. Veel onderzoeksteams hebben vastgesteld dat gereinigde datasets modellen van gelijke kwaliteit opleveren. De sleutel is het gebruik van consistente tijdelijke aanduidingen zodat het model een duidelijk patroon ziet.

Wat als mijn dataset zeer groot is?

Gebruik de batch-API. Deze verwerkt grote volumes parallel. De prijspagina toont plannen voor gebruik op grote schaal. Veel teams verwerken maandelijks miljoenen records.

Wat betreft niet-Engelstalige datasets?

De API ondersteunt 48 talen. Elke taal gebruikt een detectiemodel dat is getraind op die taal. Dit betekent dat Duits, Frans, Spaans, Japans en andere talen allemaal worden gedekt. Zie de FAQ voor een volledige talenlijst. Meertalige datasets worden ook ondersteund — u kunt de taal per document opgeven in het batchverzoek.

Colorado AI Act: Twee Deadlines

De Colorado AI Act treedt in werking op 30 juni 2026 — vijf weken voor de EU-deadline. Ze stelt vergelijkbare regels voor "hoog-risico AI-systemen" onder staatsrecht. De focus ligt hoofdzakelijk op bias en discriminatie.

Teams in zowel de EU als Colorado staan voor twee deadlines tegelijk. Het reinigen van uw datasets helpt aan beide wetten te voldoen: Artikel 10 (EU) en de anti-biasregels van Colorado. De technische stappen zijn hetzelfde.

Handel Nu

Vijf maanden is voldoende tijd — als u vandaag begint. Het is niet voldoende als u wacht tot juni.

Een praktische tijdlijn:

  1. Weken 1–2: Audit uw datasets — ontdek welke persoonsgegevens aanwezig zijn
  2. Weken 3–6: Bouw en test uw reinigingspipeline
  3. Weken 7–10: Schrijf uw bestuurdocumentatie; vraag juridisch advies
  4. Weken 11–16: Valideer — bevestig dat gereinigde datasets voldoen aan de kwaliteitseisen van Artikel 10
  5. 2 augustus: Handhavingsdatum — conforme praktijken in werking

De anonym.legal API sluit aan op uw huidige pipeline zonder grote wijzigingen. Controleer de prijzen voor volumeplannen. De FAQ behandelt veelgestelde vragen over Artikel 10.

Gebruik de AVG-compliancechecklist voor gegevens die overlappen tussen de AVG en Artikel 10.

De EU AI Act staat klaar om te handhaven. Zal uw organisatie gereed zijn op 2 augustus?

Begin met de AVG-compliancechecklist →

Beperkingen en Open Vragen

Gegevensreiniging voor AI Act-regels is nog in ontwikkeling. Hier zijn de voornaamste lacunes.

Drempelwaarden zijn niet gedefinieerd. De EU AI Act zegt niet welk niveau van reiniging "voldoende" is. Totdat het European AI Office richtlijnen uitvaardigt, loopt u juridisch risico. U weet misschien niet of uw methode toezichthouders zal tevredenstellen.

Her-identificatierisico blijft bestaan. Onderzoek toont aan dat grote taalmodellen content uit hun trainingsdata kunnen memoriseren en herhalen. Gegevens die reinigingsnormen hebben doorstaan vóór modelontwikkeling kunnen alsnog extraheerbaar zijn. Reiniging voor ontwikkeling lost dit niet volledig op.

Synthetische gegevens kennen beperkingen. Synthetische generatie behoudt statistische patronen maar kan subtiele vooroordelen toevoegen of zeldzame randgevallen missen. Modellen die uitsluitend op synthetische content zijn gebouwd, kunnen slecht presteren op echte invoer.

Artikel 10 wordt nog geïnterpreteerd. De formulering "passende technische maatregelen" vraagt om interpretatie. Vroeg toezichthouderswerk in EU-lidstaten heeft nog geen duidelijke normen vastgesteld. Volg de EDPB-richtlijnen en beslissingen van lidstaten gedurende 2026.

Bronnen

  • EU AI Act, Verordening (EU) 2024/1689, Artikelen 9–17 (verplichtingen hoog-risico AI), PB L 2024/1689
  • EU AI Act, Artikel 10 — Gegevens en gegevensbeheer
  • CNIL AI-datasetrichtlijnen, januari 2026
  • Colorado AI Act, SB 205, van kracht 30 juni 2026
  • EU AI Act-tijdlijn: verboden praktijken 2 februari 2025; hoog-risico systemen 2 augustus 2026

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.