Tilbake til BloggGDPR & Overholdelse

EU AI Act august 2026: Anonymisering av treningsdata for a oppfylle artikkel 10

EU AI Acts fulle handhevelse begynner 2. august 2026. Bøter opp til €35 millioner eller 7 % av global omsetning. Artikkel 10 krever anonymisering av treningsdata.

March 16, 20269 min lesing
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Nedtellingen har startet

Oppdatert for 2026

EU AI Act-fristen er reell. Artikkel 10-reglene gjelder fra 2. august 2026. Hvis teamet ditt bygger eller drifter et hoyrisikobasert AI-system, handler du na. Tiden er knapp.

Bøter er hoyere enn GDPR. Maksimumsbot er €35 millioner eller 7 % av global arlig omsetning. GDPR begrenser seg til €20 millioner eller 4 %. Ingen annen AI-lov har hoyere bøter.

Hvilke AI-systemer er hoyrisikobasert?

AI Act sorterer systemer etter risiko. Hoyrisikobaserte systemer (vedlegg III) dekker AI brukt i:

  • Utdanning — skoleadgang eller studentscoring
  • Arbeid — CV-skanning, intervjuscoring, arbeider-overvaking
  • Nøkkel-tjenester — kredittvurdering, forsikringsprising, nodutsendelses-koordinering
  • Rettshåndhevelse — kriminalitetsprediktering, biometrisk ID
  • Helsevesen — medisinsk enhetsprogramvare, pasienttriage
  • Infrastruktur — energi-, vann- eller transportforvaltning
  • Rettsvesen — juridiske forskninsverktoy, domsverktoy

Jobber i noen av disse? Artikkel 10 gjelder for deg.

Artikkel 10: Fire sentrale regler

Artikkel 10 setter regler for datasett brukt av hoyrisikobaserte AI-systemer. Her er de fire viktigste.

1. Skriftlig styring

Datasett ma folge "hensiktsmessig datahåndtering og -administrasjonspraksis." Du trenger skriftlige trinn for innsamling, kvalitetskontroll og lopende gjennomgang.

2. Tesing for skjevhet

Oppforinger ma sjekkes for "mulige skjevheter" som kan fore til urettferdige resultater. Aktiv testing er pakrevd. A unnga bevisst skjevhet er ikke nok.

3. Noyaktighet og dekning

Datasett ma vaere "relevante, tilstrekkelig representative og frie for feil." Nettinnsamlinger som mangler visse grupper kan mislykkes pa denne testen.

4. Spesielle oppforingstyper

Artikkel 10(5) er den mest direkte regelen. Nar et hoyrisikobasert system bruker spesielle kategorier av oppforinger — helse, rase, religion, politikk, biometri — kan du bare behandle dem nar det er "strengt nodvendig" for skjevhetskontroller. Du ma ogsa anvende "hensiktsmessige sikkerhets tiltak." Datarensing er ett av de sterkeste sikkerhetstiltakene du kan bruke.

Bunnlinjen: de fleste AI-modell-datasett inneholder personopplysninger. Artikkel 10 sier bruk minimum nodvendig, med sterke tekniske sikkerhets tiltak.

Se juridisk samsvarsside og sikkerhetsoversikten for detaljer.

Straffetrinn

EU AI Act har tre straffetrinn. Alle overgar GDPR for samme type brudd:

RegelverkMaksimumsbotOmsetningstak
GDPR€20 millioner4 % global omsetning
EU AI Act (hoyrisikobasert)€15 millioner3 % global omsetning
EU AI Act (forbudt)€35 millioner7 % global omsetning

Datasettbrudd faller i det hoyrisikobaserte trinnet (€15 millioner / 3 %). Hvis en regulator finner at bruk av personopplysninger uten sikkerhets tiltak er en forbudt handling, gjelder toppniva.

Virkelige eksempler: €500 millioner omsetning ved 3 % = €15 millioner i bot. €5 milliarder omsetning ved 3 % = €150 millioner i bot. Dette er virkelige tall, ikke teori.

Hvorfor datarensing loser dette

Korrekt rensede oppforinger faller utenfor GDPR-omfanget. Det fjerner det meste av artikkel 10s byrde.

De harde reglene — spesiell kategorihåndtering, skjevhetskontroller, registrertes rettigheter — gjelder bare nar et datasett inneholder personopplysninger. Fjern disse oppforingene forst. Byrden forsvinner stort sett.

CNIL (fransk datamyndighet) gjorde dette klart tidlig i 2026. Dens AI-veiledning sier dette: datarensing av personopplysninger som ikke er nodvendige for modellytelse er det primate tekniske tiltaket for artikkel 10.

Dette er ikke et utkants-syn. Det er mainstream-posisjonen til EUs fremste AI-regulator.

Hva datarensing betyr i praksis

Rensing av AI-modell-datasett er ikke det samme som rensing av live produksjonsoppforinger. Modell-datasett kan inneholde:

  • Dokumenter med PII — kontrakter, e-poster, rapporter, supportbilletter
  • Strukturerte oppforinger — kundetabeller brukt til a bygge prediktive modeller
  • Merket innhold — bilder eller tekst med notater som inneholder persondata
  • Syntetiske oppforinger — der generering fortsatt kan bevare personlige monstre

Du ma oppdage PII i alle disse formatene. A ga glipp av en type eksponerer hele datasettet. En kontrakt med navn fjernet, men fullstendige adresser intakt, vil laere en modell a koble plassering til demografiske monstre.

anonym.legal API handterer bunkeprosessering for store AI-datasett. Det oppdager 285+ enhetstyper pa 48 sprak. For europeiske AI-selskaper med flerspraklige datasett er tverrspraklig dekning kritisk. Et gap i ett sprak skaper EU AI Act-risiko pa tvers av hele systemet.

For mer om enhetsdeteksjon, se tokensystemveiledningen og enhetstypereferansen.

Praktiske trinn: Rensing av datasettet ditt

Trinn 1: Revider forst

Kjor en deteksjonsgang for du renser noe som helst. Dette forteller deg hvilken PII som er til stede:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Svaret lister opp alle oppdagede enheter med type, posisjon og score. Kjor dette pa alle filene dine for a se det fulle omfanget for du begynner.

Trinn 2: Bunkerensing

For store datasett, bruk bunkeendepunktet til a behandle mange filer pa en gang:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Ferdig: {result['id']} — {len(result['items'])} enheter fjernet")

Trinn 3: Hold oppforinger

Artikkel 10 krever skriftlige oppforinger over hva du gjorde. For hvert datasett, hold:

  • Deteksjonsmodellen og versjonen som ble brukt
  • Hvilke enhetstyper som ble funnet og hvordan hver ble erstattet
  • Enhetstall fjernet per datasett
  • Datoen for rensing og datasettsversjonen som ble brukt

Dette oppfyller kravet "datahåndtering og -administrasjonspraksis" i artikkel 10(2)(a).

Vanlige sporsmal

Bryter rensing modellkvaliteten?

I de fleste tilfeller, nei. Modellen laerer monstre fra tekststruktur, ikke personlige detaljer. Navn, telefonnumre og adresser kan erstattes med plassholdere som [NAME] eller [PHONE], og modellen laerer fortsatt de samme monstrene. Mange forsknigensteam har funnet at rensede datasett produserer modeller av lik kvalitet. Nokkelord er a bruke konsekvente plassholdere slik at modellen ser et klart monster.

Hva om datasettet mitt er veldig stort?

Bruk bunkens API. Det handterer store volum parallelt. Prissiden viser planer for hogvolum-brukstilfeller. Mange team behandler millioner av oppforinger per maned.

Hva med ikke-engelske datasett?

API-et stotter 48 sprak. Hvert sprak bruker en deteksjonsmodell trent pa det spraket. Det betyr at tysk, fransk, spansk, japansk og andre er alle dekket. Se FAQ for en fullstendig sprkliste. Blandede sprak-datasett stettes ogsa — du kan spesifisere spraket per dokument i bunkeforesporsel.

Colorado AI Act: To frister

Colorados AI Act trer i kraft 30. juni 2026 — fem uker for EU-fristen. Den setter lignende regler for "hoyrisikobaserte AI-systemer" under delstatsloven. Hoveddrivkraften er skjevhet og diskriminering.

Team bade i EU og Colorado star overfor to frister pa en gang. Rensing av datasettene hjelper a oppfylle begge lover: artikkel 10 (EU) og Colorados regler mot skjevhet. De tekniske trinnene er de samme.

Handle na

Fem maneder er nok tid — hvis du starter i dag. Det er ikke nok hvis du venter til juni.

En praktisk tidslinje:

  1. Uke 1–2: Revider datasettene — finn ut hvilke personopplysninger som er til stede
  2. Uke 3–6: Bygg og test renserorledningen din
  3. Uke 7–10: Skriv opp styringsoppforingene dine; fa juridisk gjennomgang
  4. Uke 11–16: Valider — bekreft at rensede datasett oppfyller artikkel 10-kvalitetsreglene
  5. 2. august: Handhevingsdato — samsvars praksis pa plass

anonym.legal API kobles til gjeldende rorledning uten store endringer. Sjekk prissiden for volumplaner. FAQ dekker vanlige artikkel 10-sporsmal.

Bruk GDPR-samsvarssjekklisten for oppforinger som overlapper mellom GDPR og artikkel 10.

EU AI Act er klar til a handheve. Vil organisasjonen din vaere klar innen 2. august?

Start med GDPR-samsvarssjekklisten →

Begrensninger og apne sporsmal

Datarensing for AI Act-regler er fortsatt under utvikling. Her er de viktigste gapene.

Terskler er ikke definert. EU AI Act sier ikke hva nivat av rensing er "tilstrekkelig." Inntil European AI Office utgir veiledning, star du overfor juridisk risiko. Du vet kanskje ikke om metoden din vil tilfredsstille regulatorer.

Re-identifikasjonsrisiko vedvarer. Forskning viser at store sprakmodeller kan memorere og spille av innhold fra datasettene. Oppforinger som passerte rensestandarder for modellyvikling kan fortsatt vaere utrekkelbare. Rensing for utvikling loser ikke dette fullt ut.

Syntetiske oppforinger har begrensninger. Syntetisk generering beholder statistiske monstre, men kan legge til subtile skjevheter eller ga glipp av sjeldne kanttilfeller. Modeller bygget bare pa syntetisk innhold kan prestere darlig pa reelle inndataer.

Artikkel 10 er fortsatt under tolkning. Uttrykket "hensiktsmessige tekniske tiltak" trenger tolkning. Tidlig DPA-arbeid pa tvers av EU-medlemsstater har ikke satt seg pa klare standarder. Folg EDPB-veiledning og nasjons-beslutnigner gjennom 2026.

Kilder

  • EU AI Act, forordning (EU) 2024/1689, artiklene 9–17 (hoyrisikobaserte AI-forpliktelser), OJ L 2024/1689
  • EU AI Act, artikkel 10 — Data og datastyring
  • CNIL AI-datasett-veiledning, januar 2026
  • Colorado AI Act, SB 205, gjeldende fra 30. juni 2026
  • EU AI Act-tidslinje: forbudte praksiser 2. februar 2025; hoyrisikobaserte systemer 2. august 2026

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.