Nedräkningen har börjat
Uppdaterat för 2026
EU AI Act-deadline är verklig. Artikel 10-reglerna gäller från den 2 augusti 2026. Om ditt team bygger eller driver ett högrisk-AI-system, agera nu. Tiden är kort.
Böterna är högre än GDPR. Maxboten är €35 miljoner eller 7 % av global årsomsättning. GDPR begränsas till €20 miljoner eller 4 %. Ingen annan AI-lag har högre böter.
Vilka AI-system är högrisk?
AI Act sorterar system efter risk. Högrisk-system (bilaga III) täcker AI som används i:
- Utbildning — skolantagning eller studentbedömning
- Arbete — CV-granskning, intervjubedömning, arbetarövervakning
- Viktiga tjänster — kreditbedömning, försäkringsprissättning, räddningstjänstdisponering
- Brottsbekämpning — brottsförutsägelse, biometrisk ID
- Hälso- och sjukvård — medicinteknisk programvara, patienttriage
- Infrastruktur — energi-, vatten- eller transporthantering
- Rättsväsendet — juridiska forskningsverktyg, dömningsverktyg
Arbetar du inom något av dessa? Artikel 10 gäller dig.
Artikel 10: Fyra nyckelregler
Artikel 10 fastställer regler för datamängder som används av högrisk-AI-system. Här är de fyra huvudsakliga.
1. Skriftlig styrning
Datamängder måste följa "lämpliga datastyrnings- och hanteringspraxis". Du behöver skriftliga steg för insamling, kvalitetskontroller och löpande granskning.
2. Biastestning
Poster måste kontrolleras för "möjliga fördomar" som kan orsaka orättvisa utdata. Aktiv testning krävs. Att undvika avsiktlig bias räcker inte.
3. Noggrannhet och täckning
Datamängder måste vara "relevanta, tillräckligt representativa och felfria". Webbcrawlar som missar vissa grupper kan misslyckas med detta test.
4. Speciella posttyper
Artikel 10(5) är den mest direkta regeln. När ett högrisk-system använder särskilda kategorier av poster — hälsa, ras, religion, politik, biometri — får du bara bearbeta dem när det är "strikt nödvändigt" för biastester. Du måste också tillämpa "lämpliga skyddsåtgärder". Datasanering är en av de starkaste skyddsåtgärder du kan använda.
Slutresultatet: de flesta AI-modelldatamängder innehåller personuppgifter. Artikel 10 säger använd minimum som krävs, med starka tekniska skyddsåtgärder.
Se vår sida för juridisk efterlevnad och säkerhetsöversikt för detaljer.
Bötersnivåer
EU AI Act har tre bötersnivåer. Alla överstiger GDPR för samma typ av överträdelse:
| Förordning | Maxbot | Omsättningstak |
|---|---|---|
| GDPR | €20 miljoner | 4 % global omsättning |
| EU AI Act (högrisk) | €15 miljoner | 3 % global omsättning |
| EU AI Act (förbjuden) | €35 miljoner | 7 % global omsättning |
Datamängdsöverträdelser hamnar i högrisk-nivån (€15M / 3 %). Om en regulator bedömer att användning av personuppgifter utan skyddsåtgärder är en förbjuden handling, gäller den högsta nivån.
Verkliga exempel: €500M omsättning vid 3 % = €15M i böter. €5B omsättning vid 3 % = €150M i böter. Dessa är verkliga siffror, inte teori.
Varför datasanering löser detta
Korrekt sanerade poster faller utanför GDPR:s räckvidd. Det tar bort det mesta av artikel 10:s börda.
De hårda reglerna — hantering av särskilda kategorier, biastester, registrerade personers rättigheter — gäller bara när en datamängd innehåller personuppgifter. Ta bort dessa poster först. Bördan försvinner till stor del.
CNIL (franska datamyndigheten) klargjorde detta i början av 2026. Dess AI-vägledning säger detta: datasanering av personuppgifter som inte behövs för modellprestanda är den primära tekniska åtgärden för artikel 10.
Detta är inte en marginell åsikt. Det är mainstream-positionen hos EU:s ledande AI-regulator.
Vad datasanering innebär i praktiken
Sanering av AI-modelldatamängder är inte detsamma som sanering av live-produktionsposter. Modelldatamängder kan innehålla:
- Dokument med PII — kontrakt, e-post, rapporter, supportärenden
- Strukturerade poster — kundtabeller som används för att bygga prediktiva modeller
- Märkt innehåll — bilder eller text med anteckningar som inkluderar personuppgifter
- Syntetiska poster — där generering kan fortfarande bevara personliga mönster
Du måste detektera PII i alla dessa format. Att missa en typ exponerar hela datamängden. Ett kontrakt med namn borttagna men fullständiga adresser kvar lär en modell att koppla plats till demografiska mönster.
anonym.legal API hanterar batchbearbetning för stora AI-datamängder. Det detekterar 285+ entitetstyper på 48 språk. För europeiska AI-företag med flerspråkiga datamängder är täckning av flera språk kritisk. En lucka i ett språk skapar EU AI Act-risk i hela systemet.
För mer om entitetsdetektering, se guiden om tokensystem och entitetstyreferensen.
Praktiska steg: Sanera din datamängd
Steg 1: Granska först
Kör ett detekteringspass innan du sanerar något. Det berättar vilken PII som finns:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Svaret listar varje detekterad entitet med dess typ, position och poäng. Kör detta på alla dina filer för att se den fullständiga omfattningen innan du börjar.
Steg 2: Batch-sanering
För stora datamängder, använd batch-slutpunkten för att bearbeta många filer på en gång:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Klar: {result['id']} — {len(result['items'])} entiteter borttagna")
Steg 3: Spara dokumentation
Artikel 10 kräver skriftlig dokumentation av vad du gjorde. För varje datamängd, spara:
- Detekteringsmodellen och versionen som användes
- Vilka entitetstyper som hittades och hur varje ersattes
- Antal entiteter borttagna per datamängd
- Datum för sanering och datamängdsversionen som användes
Detta uppfyller kravet på "datastyrnings- och hanteringspraxis" i artikel 10(2)(a).
Vanliga frågor
Förstör sanering modellkvaliteten?
I de flesta fall nej. Modellen lär sig mönster från textstruktur, inte personuppgifter. Namn, telefonnummer och adresser kan ersättas med platshållare som [NAMN] eller [TELEFON] och modellen lär sig fortfarande samma mönster. Många forskarteam har funnit att sanerade datamängder producerar modeller av likvärdig kvalitet. Nyckeln är att använda konsekventa platshållare så att modellen ser ett tydligt mönster.
Vad händer om min datamängd är mycket stor?
Använd batch-API:et. Det hanterar stora volymer parallellt. Prissättningssidan visar planer för användningsfall med höga volymer. Många team bearbetar miljontals poster per månad.
Vad gäller för icke-engelska datamängder?
API:et stöder 48 språk. Varje språk använder en detekteringsmodell tränad på det språket. Det innebär att tyska, franska, spanska, japanska och andra alla täcks. Se FAQ för en fullständig språklista. Blandade språkdatamängder stöds också — du kan ange språk per dokument i batch-förfrågan.
Colorado AI Act: Två deadlines
Colorados AI Act träder i kraft den 30 juni 2026 — fem veckor före EU-deadline. Den fastställer liknande regler för "högrisk-AI-system" under delstatlig lag. Huvudfokus är bias och diskriminering.
Team i både EU och Colorado möter två deadlines på en gång. Sanering av dina datamängder hjälper till att uppfylla båda lagarna: artikel 10 (EU) och Colorados anti-bias-regler. De tekniska stegen är desamma.
Agera nu
Fem månader räcker — om du börjar idag. Det räcker inte om du väntar till juni.
En praktisk tidsplan:
- Veckor 1–2: Granska dina datamängder — ta reda på vilka personuppgifter som finns
- Veckor 3–6: Bygg och testa din saneringspipeline
- Veckor 7–10: Dokumentera din styrning skriftligt; få juridisk granskning
- Veckor 11–16: Validera — bekräfta att sanerade datamängder uppfyller artikel 10:s kvalitetskrav
- Den 2 augusti: Tillämpningsdatum — efterlevnadspraxis på plats
anonym.legal API integreras i din nuvarande pipeline utan stora förändringar. Kolla prissättning för volymplaner. FAQ täcker vanliga artikel 10-frågor.
Använd GDPR-efterlevnadschecklistan för poster som överlappar mellan GDPR och artikel 10.
EU AI Act är redo att tillämpas. Kommer din organisation att vara redo den 2 augusti?
Börja med GDPR-efterlevnadschecklistan →
Begränsningar och öppna frågor
Datasanering för AI Act-regler håller fortfarande på att utvecklas. Här är de viktigaste luckorna.
Tröskelvärden är inte definierade. EU AI Act specificerar inte vilken nivå av sanering som är "tillräcklig". Tills det europeiska AI-kontoret utfärdar vägledning möter du juridisk risk. Du kanske inte vet om din metod kommer att tillfredsställa regulatorer.
Risk för återidentifiering kvarstår. Forskning visar att stora språkmodeller kan memorera och återge innehåll från sina datamängder. Poster som klarade saneringsstandarder före modellutveckling kan fortfarande vara extraherbara. Sanering före utveckling löser inte detta fullt ut.
Syntetiska poster har begränsningar. Syntetisk generering behåller statistiska mönster men kan lägga till subtila fördomar eller missa sällsynta kantfall. Modeller byggda enbart på syntetiskt innehåll kan prestera dåligt på verkliga indata.
Artikel 10 tolkas fortfarande. Frasen "lämpliga tekniska åtgärder" behöver tolkning. Tidigt DPA-arbete över EU:s medlemsstater har inte fastnat på tydliga standarder. Bevaka EDPB-vägledning och beslut från medlemsstater under hela 2026.
Källor
- EU AI Act, förordning (EU) 2024/1689, artiklarna 9–17 (högrisk-AI-skyldigheter), EUT L 2024/1689
- EU AI Act, artikel 10 — Data och datastyrning
- CNIL AI-datamängdsvägledning, januari 2026
- Colorado AI Act, SB 205, träder i kraft den 30 juni 2026
- EU AI Act-tidslinje: förbjudna praxis den 2 februari 2025; högrisk-system den 2 augusti 2026