Tillbaka till BloggenGDPR & Efterlevnad

EU AI Act augusti 2026: Anonymisering av träningsdata för att uppfylla artikel 10

EU AI Acts fulla tillämpning börjar den 2 augusti 2026. Böter upp till €35 miljoner eller 7 % av global omsättning. Artikel 10 kräver anonymisering av träningsdata.

March 16, 20269 min läsning
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Nedräkningen har börjat

Uppdaterat för 2026

EU AI Act-deadline är verklig. Artikel 10-reglerna gäller från den 2 augusti 2026. Om ditt team bygger eller driver ett högrisk-AI-system, agera nu. Tiden är kort.

Böterna är högre än GDPR. Maxboten är €35 miljoner eller 7 % av global årsomsättning. GDPR begränsas till €20 miljoner eller 4 %. Ingen annan AI-lag har högre böter.

Vilka AI-system är högrisk?

AI Act sorterar system efter risk. Högrisk-system (bilaga III) täcker AI som används i:

  • Utbildning — skolantagning eller studentbedömning
  • Arbete — CV-granskning, intervjubedömning, arbetarövervakning
  • Viktiga tjänster — kreditbedömning, försäkringsprissättning, räddningstjänstdisponering
  • Brottsbekämpning — brottsförutsägelse, biometrisk ID
  • Hälso- och sjukvård — medicinteknisk programvara, patienttriage
  • Infrastruktur — energi-, vatten- eller transporthantering
  • Rättsväsendet — juridiska forskningsverktyg, dömningsverktyg

Arbetar du inom något av dessa? Artikel 10 gäller dig.

Artikel 10: Fyra nyckelregler

Artikel 10 fastställer regler för datamängder som används av högrisk-AI-system. Här är de fyra huvudsakliga.

1. Skriftlig styrning

Datamängder måste följa "lämpliga datastyrnings- och hanteringspraxis". Du behöver skriftliga steg för insamling, kvalitetskontroller och löpande granskning.

2. Biastestning

Poster måste kontrolleras för "möjliga fördomar" som kan orsaka orättvisa utdata. Aktiv testning krävs. Att undvika avsiktlig bias räcker inte.

3. Noggrannhet och täckning

Datamängder måste vara "relevanta, tillräckligt representativa och felfria". Webbcrawlar som missar vissa grupper kan misslyckas med detta test.

4. Speciella posttyper

Artikel 10(5) är den mest direkta regeln. När ett högrisk-system använder särskilda kategorier av poster — hälsa, ras, religion, politik, biometri — får du bara bearbeta dem när det är "strikt nödvändigt" för biastester. Du måste också tillämpa "lämpliga skyddsåtgärder". Datasanering är en av de starkaste skyddsåtgärder du kan använda.

Slutresultatet: de flesta AI-modelldatamängder innehåller personuppgifter. Artikel 10 säger använd minimum som krävs, med starka tekniska skyddsåtgärder.

Se vår sida för juridisk efterlevnad och säkerhetsöversikt för detaljer.

Bötersnivåer

EU AI Act har tre bötersnivåer. Alla överstiger GDPR för samma typ av överträdelse:

FörordningMaxbotOmsättningstak
GDPR€20 miljoner4 % global omsättning
EU AI Act (högrisk)€15 miljoner3 % global omsättning
EU AI Act (förbjuden)€35 miljoner7 % global omsättning

Datamängdsöverträdelser hamnar i högrisk-nivån (€15M / 3 %). Om en regulator bedömer att användning av personuppgifter utan skyddsåtgärder är en förbjuden handling, gäller den högsta nivån.

Verkliga exempel: €500M omsättning vid 3 % = €15M i böter. €5B omsättning vid 3 % = €150M i böter. Dessa är verkliga siffror, inte teori.

Varför datasanering löser detta

Korrekt sanerade poster faller utanför GDPR:s räckvidd. Det tar bort det mesta av artikel 10:s börda.

De hårda reglerna — hantering av särskilda kategorier, biastester, registrerade personers rättigheter — gäller bara när en datamängd innehåller personuppgifter. Ta bort dessa poster först. Bördan försvinner till stor del.

CNIL (franska datamyndigheten) klargjorde detta i början av 2026. Dess AI-vägledning säger detta: datasanering av personuppgifter som inte behövs för modellprestanda är den primära tekniska åtgärden för artikel 10.

Detta är inte en marginell åsikt. Det är mainstream-positionen hos EU:s ledande AI-regulator.

Vad datasanering innebär i praktiken

Sanering av AI-modelldatamängder är inte detsamma som sanering av live-produktionsposter. Modelldatamängder kan innehålla:

  • Dokument med PII — kontrakt, e-post, rapporter, supportärenden
  • Strukturerade poster — kundtabeller som används för att bygga prediktiva modeller
  • Märkt innehåll — bilder eller text med anteckningar som inkluderar personuppgifter
  • Syntetiska poster — där generering kan fortfarande bevara personliga mönster

Du måste detektera PII i alla dessa format. Att missa en typ exponerar hela datamängden. Ett kontrakt med namn borttagna men fullständiga adresser kvar lär en modell att koppla plats till demografiska mönster.

anonym.legal API hanterar batchbearbetning för stora AI-datamängder. Det detekterar 285+ entitetstyper på 48 språk. För europeiska AI-företag med flerspråkiga datamängder är täckning av flera språk kritisk. En lucka i ett språk skapar EU AI Act-risk i hela systemet.

För mer om entitetsdetektering, se guiden om tokensystem och entitetstyreferensen.

Praktiska steg: Sanera din datamängd

Steg 1: Granska först

Kör ett detekteringspass innan du sanerar något. Det berättar vilken PII som finns:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Svaret listar varje detekterad entitet med dess typ, position och poäng. Kör detta på alla dina filer för att se den fullständiga omfattningen innan du börjar.

Steg 2: Batch-sanering

För stora datamängder, använd batch-slutpunkten för att bearbeta många filer på en gång:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Klar: {result['id']} — {len(result['items'])} entiteter borttagna")

Steg 3: Spara dokumentation

Artikel 10 kräver skriftlig dokumentation av vad du gjorde. För varje datamängd, spara:

  • Detekteringsmodellen och versionen som användes
  • Vilka entitetstyper som hittades och hur varje ersattes
  • Antal entiteter borttagna per datamängd
  • Datum för sanering och datamängdsversionen som användes

Detta uppfyller kravet på "datastyrnings- och hanteringspraxis" i artikel 10(2)(a).

Vanliga frågor

Förstör sanering modellkvaliteten?

I de flesta fall nej. Modellen lär sig mönster från textstruktur, inte personuppgifter. Namn, telefonnummer och adresser kan ersättas med platshållare som [NAMN] eller [TELEFON] och modellen lär sig fortfarande samma mönster. Många forskarteam har funnit att sanerade datamängder producerar modeller av likvärdig kvalitet. Nyckeln är att använda konsekventa platshållare så att modellen ser ett tydligt mönster.

Vad händer om min datamängd är mycket stor?

Använd batch-API:et. Det hanterar stora volymer parallellt. Prissättningssidan visar planer för användningsfall med höga volymer. Många team bearbetar miljontals poster per månad.

Vad gäller för icke-engelska datamängder?

API:et stöder 48 språk. Varje språk använder en detekteringsmodell tränad på det språket. Det innebär att tyska, franska, spanska, japanska och andra alla täcks. Se FAQ för en fullständig språklista. Blandade språkdatamängder stöds också — du kan ange språk per dokument i batch-förfrågan.

Colorado AI Act: Två deadlines

Colorados AI Act träder i kraft den 30 juni 2026 — fem veckor före EU-deadline. Den fastställer liknande regler för "högrisk-AI-system" under delstatlig lag. Huvudfokus är bias och diskriminering.

Team i både EU och Colorado möter två deadlines på en gång. Sanering av dina datamängder hjälper till att uppfylla båda lagarna: artikel 10 (EU) och Colorados anti-bias-regler. De tekniska stegen är desamma.

Agera nu

Fem månader räcker — om du börjar idag. Det räcker inte om du väntar till juni.

En praktisk tidsplan:

  1. Veckor 1–2: Granska dina datamängder — ta reda på vilka personuppgifter som finns
  2. Veckor 3–6: Bygg och testa din saneringspipeline
  3. Veckor 7–10: Dokumentera din styrning skriftligt; få juridisk granskning
  4. Veckor 11–16: Validera — bekräfta att sanerade datamängder uppfyller artikel 10:s kvalitetskrav
  5. Den 2 augusti: Tillämpningsdatum — efterlevnadspraxis på plats

anonym.legal API integreras i din nuvarande pipeline utan stora förändringar. Kolla prissättning för volymplaner. FAQ täcker vanliga artikel 10-frågor.

Använd GDPR-efterlevnadschecklistan för poster som överlappar mellan GDPR och artikel 10.

EU AI Act är redo att tillämpas. Kommer din organisation att vara redo den 2 augusti?

Börja med GDPR-efterlevnadschecklistan →

Begränsningar och öppna frågor

Datasanering för AI Act-regler håller fortfarande på att utvecklas. Här är de viktigaste luckorna.

Tröskelvärden är inte definierade. EU AI Act specificerar inte vilken nivå av sanering som är "tillräcklig". Tills det europeiska AI-kontoret utfärdar vägledning möter du juridisk risk. Du kanske inte vet om din metod kommer att tillfredsställa regulatorer.

Risk för återidentifiering kvarstår. Forskning visar att stora språkmodeller kan memorera och återge innehåll från sina datamängder. Poster som klarade saneringsstandarder före modellutveckling kan fortfarande vara extraherbara. Sanering före utveckling löser inte detta fullt ut.

Syntetiska poster har begränsningar. Syntetisk generering behåller statistiska mönster men kan lägga till subtila fördomar eller missa sällsynta kantfall. Modeller byggda enbart på syntetiskt innehåll kan prestera dåligt på verkliga indata.

Artikel 10 tolkas fortfarande. Frasen "lämpliga tekniska åtgärder" behöver tolkning. Tidigt DPA-arbete över EU:s medlemsstater har inte fastnat på tydliga standarder. Bevaka EDPB-vägledning och beslut från medlemsstater under hela 2026.

Källor

  • EU AI Act, förordning (EU) 2024/1689, artiklarna 9–17 (högrisk-AI-skyldigheter), EUT L 2024/1689
  • EU AI Act, artikel 10 — Data och datastyrning
  • CNIL AI-datamängdsvägledning, januari 2026
  • Colorado AI Act, SB 205, träder i kraft den 30 juni 2026
  • EU AI Act-tidslinje: förbjudna praxis den 2 februari 2025; högrisk-system den 2 augusti 2026

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.