Tilbage til BlogGDPR & Overholdelse

EU AI Act august 2026: Anonymisering af træningsdata for at opfylde artikel 10

EU AI Acts fulde håndhævelse begynder den 2. august 2026. Bøder op til €35 mio. eller 7% af global omsætning. Artikel 10 kræver anonymisering af træningsdata.

March 16, 20269 min læsning
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Nedtællingen er begyndt

Opdateret for 2026

EU AI Act-fristen er reel. Artikel 10-reglerne gælder fra den 2. august 2026. Hvis dit team bygger eller driver et højrisiko-AI-system, skal du handle nu. Tiden er knap.

Bøder er højere end GDPR. Maksimalbøden er €35 millioner eller 7% af global årsomsetning. GDPR loftet er €20 millioner eller 4%. Ingen anden AI-lov har højere bøder.

Hvilke AI-systemer er højrisiko?

AI Act sorterer systemer efter risiko. Højrisikosystemer (bilag III) dækker AI brugt i:

  • Uddannelse — skoleadgang eller elevscoring
  • Job — CV-screening, interviewscoring, medarbejderovervågning
  • Nøgletjenester — kreditscoring, forsikringspriser, nødudkald
  • Retshåndhævelse — kriminalitetsprognose, biometrisk ID
  • Sundhedspleje — medicinsk enhedssoftware, patienttriage
  • Infrastruktur — energi, vand eller transportforvaltning
  • Retsvæsen — juridiske forskningsværktøjer, strafudmålingsværktøjer

Arbejder du inden for nogen af disse? Artikel 10 gælder for dig.

Artikel 10: Fire nøgleregler

Artikel 10 fastsætter regler for datasæt brugt af højrisiko-AI-systemer. Her er de fire vigtigste.

1. Skriftlig styring

Datasæt skal følge "passende datastyring og -forvaltningspraksis." Du har brug for skriftlige trin til indsamling, kvalitetskontrol og løbende gennemgang.

2. Biastest

Data skal kontrolleres for "mulige fordomme," der kan forårsage uretfærdige output. Aktiv testning er påkrævet. At undgå bevidst bias er ikke nok.

3. Nøjagtighed og dækning

Datasæt skal være "relevante, tilstrækkeligt repræsentative og fejlfrie." Webcrawls, der overser visse grupper, kan mislykkes denne test.

4. Særlige datatyper

Artikel 10(5) er den mest direkte regel. Når et højrisikosystem bruger særlige kategorier af data — helbred, race, religion, politik, biometri — må du kun behandle dem, når det er "strengt nødvendigt" for biastjek. Du skal også anvende "passende sikkerhedsforanstaltninger." Datascrubbing er en af de stærkeste foranstaltninger, du kan bruge.

Bundlinjen: de fleste AI-modeldatasæt indeholder persondata. Artikel 10 siger: brug det minimum, der er nødvendigt, med stærke tekniske foranstaltninger.

Se vores juridiske overholdelses side og sikkerhedsoversigt for detaljer.

Bødeniveauer

EU AI Act har tre bødeniveauer. Alle overstiger GDPR for den samme type overtrædelse:

ReguleringMaks. bødeOmsætningsloft
GDPR€20 millioner4% global omsætning
EU AI Act (højrisiko)€15 millioner3% global omsætning
EU AI Act (forbudt)€35 millioner7% global omsætning

Datasætovertrædelses falder i højrisiko-niveauet (€15 mio. / 3%). Hvis en regulator finder, at brug af persondata uden sikkerhedsforanstaltninger er en forbudt handling, gælder det øverste niveau.

Virkelige eksempler: €500 mio. omsætning ved 3% = €15 mio. bøde. €5 mia. omsætning ved 3% = €150 mio. bøde. Det er virkelige tal, ikke teori.

Hvorfor datascrubbing løser dette

Ordentligt scrubbede data falder uden for GDPR's anvendelsesområde. Det fjerner det meste af artikel 10's byrde.

De hårde regler — håndtering af særlige kategorier, biastjek, registreredes rettigheder — gælder kun, når et datasæt indeholder persondata. Fjern disse data først. Byrden forsvinder stort set.

CNIL (den franske datatilsynsmyndighed) gjorde dette klart i begyndelsen af 2026. Dens AI-vejledning siger dette: datascrubbing af persondata, der ikke er nødvendige for modellens ydeevne, er den primære tekniske foranstaltning for artikel 10.

Dette er ikke en marginal holdning. Det er den officielle holdning hos EU's øverste AI-regulator.

Hvad datascrubbing betyder i praksis

Scrubbing af AI-modeldatasæt er ikke det samme som scrubbing af live-produktionsdata. Modeldatasæt kan indeholde:

  • Dokumenter med PII — kontrakter, e-mails, rapporter, supportbilletter
  • Strukturerede data — kundetabeller brugt til at bygge prædiktive modeller
  • Mærkede data — billeder eller tekst med noter, der indeholder persondata
  • Syntetiske data — hvor generering stadig kan bevare personlige mønstre

Du skal registrere PII i alle disse formater. At overse én type eksponerer hele datasættet. En kontrakt med navne fjernet, men fulde adresser stadig intakte, vil lære en model at kæde placering til demografiske mønstre.

anonym.legal API'et håndterer batchbehandling for store AI-datasæt. Det registrerer 285+ enhedstyper på 48 sprog. For europæiske AI-virksomheder med flersprogede datasæt er tværsproglig dækning kritisk. Et hul i ét sprog skaber EU AI Act-risiko på tværs af hele systemet.

For mere om enhedsregistrering, se guide til tokensystemet og referencen for enhedstyper.

Praktiske trin: Scrubbing af dit datasæt

Trin 1: Revision først

Kør en registreringsgennemgang, inden du scrubber noget. Det fortæller dig, hvilken PII der er til stede:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Svaret viser alle registrerede enheder med type, position og score. Kør dette på tværs af alle dine filer for at se det fulde omfang, inden du begynder.

Trin 2: Batchscrubbing

For store datasæt skal du bruge batch-endpointet til at behandle mange filer på én gang:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Færdig: {result['id']} — {len(result['items'])} enheder fjernet")

Trin 3: Bevar optegnelser

Artikel 10 kræver skriftlige optegnelser over, hvad du gjorde. For hvert datasæt skal du beholde:

  • Den anvendte registreringsmodel og version
  • Hvilke enhedstyper der blev fundet, og hvordan hver enkelt blev erstattet
  • Antal enheder fjernet pr. datasæt
  • Datoen for scrubbing og den anvendte datasætversion

Dette opfylder kravet om "datastyring og -forvaltningspraksis" i artikel 10(2)(a).

Almindelige spørgsmål

Forringer scrubbing modellens kvalitet?

I de fleste tilfælde ikke. Modellen lærer mønstre fra tekststruktur, ikke personlige detaljer. Navne, telefonnumre og adresser kan erstattes med pladsholdere som [NAME] eller [PHONE], og modellen lærer stadig de samme mønstre. Mange forskerteams har fundet, at scrubbede datasæt producerer modeller af tilsvarende kvalitet. Nøglen er at bruge ensartede pladsholdere, så modellen ser et tydeligt mønster.

Hvad hvis mit datasæt er meget stort?

Brug batch-API'et. Det håndterer store mængder parallelt. Prissiden viser abonnementer til højtvolumen-scenarier. Mange teams behandler millioner af poster om måneden.

Hvad med ikke-engelske datasæt?

API'et understøtter 48 sprog. Hvert sprog bruger en registreringsmodel trænet på det pågældende sprog. Det betyder, at tysk, fransk, spansk, japansk og andre alle er dækket. Se FAQ'en for en fuld sprogliste. Blandede datasæt understøttes også — du kan angive sproget pr. dokument i batchanmodningen.

Colorado AI Act: To frister

Colorados AI Act træder i kraft den 30. juni 2026 — fem uger før EU-fristen. Den fastsætter lignende regler for "højrisiko-AI-systemer" under delstatsloven. Fokus er primært på bias og diskrimination.

Teams i både EU og Colorado har to frister på én gang. Scrubbing af dine datasæt hjælper med at opfylde begge love: artikel 10 (EU) og Colorados antibiasregler. De tekniske trin er de samme.

Handl nu

Fem måneder er nok tid — hvis du starter i dag. Det er ikke nok, hvis du venter til juni.

En praktisk tidsplan:

  1. Uge 1-2: Revidér dine datasæt — find ud af, hvilke persondata der er til stede
  2. Uge 3-6: Byg og test din scrubbing-pipeline
  3. Uge 7-10: Skriv dine styringsoptegnelser; få juridisk gennemgang
  4. Uge 11-16: Validér — bekræft, at scrubbede datasæt opfylder artikel 10's kvalitetsregler
  5. Den 2. august: Håndhævelsesdato — overensstemmende praksis på plads

anonym.legal API'et integreres i din nuværende pipeline uden store ændringer. Tjek prissætning for volumeplaner. FAQ'en dækker almindelige artikel 10-spørgsmål.

Brug GDPR-overholdelsestjeklisten for data, der overlapper mellem GDPR og artikel 10.

EU AI Act er klar til at håndhæve. Vil din organisation være klar den 2. august?

Start med GDPR-overholdelsestjeklisten →

Begrænsninger og åbne spørgsmål

Datascrubbing til AI Act-regler er stadig under udvikling. Her er de vigtigste huller.

Tærskler er ikke defineret. EU AI Act angiver ikke, hvilket scrubbing-niveau der er "tilstrækkeligt." Indtil det Europæiske AI-kontor udsteder vejledning, står du over for juridisk risiko. Du ved måske ikke, om din metode vil tilfredsstille regulatorerne.

Re-identifikationsrisiko består. Forskning viser, at store sprogmodeller kan memorere og gengive indhold fra deres datasæt. Data, der bestod scrubbing-standarder inden modeludvikling, kan stadig udtrækkes. Scrubbing inden udvikling løser ikke fuldt ud dette problem.

Syntetiske data har begrænsninger. Syntetisk generering bevarer statistiske mønstre, men kan tilføje subtil bias eller overse sjældne kanttilfælde. Modeller bygget udelukkende på syntetisk indhold kan præstere dårligt på rigtige input.

Artikel 10 fortolkes stadig. Udtrykket "passende tekniske foranstaltninger" kræver fortolkning. Tidligt DPA-arbejde på tværs af EU's medlemsstater har ikke lagt sig fast på klare standarder. Følg EDPB-vejledning og afgørelser fra medlemsstaterne i løbet af 2026.

Kilder

  • EU AI Act, forordning (EU) 2024/1689, artikel 9-17 (forpligtelser for højrisiko-AI), EUT L 2024/1689
  • EU AI Act, artikel 10 — Data og datastyring
  • CNIL AI-datasætvejledning, januar 2026
  • Colorado AI Act, SB 205, gælder fra den 30. juni 2026
  • EU AI Act-tidsplan: forbudt praksis den 2. februar 2025; højrisikosystemer den 2. august 2026

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.