Til baka á BloggGDPR & Samræmi

ESB-gervigreindargerð ágúst 2026: Nafnleynd þjálfunargagna til að uppfylla 10. grein

Full framkvæmd ESB-gervigreindargerðarinnar hefst 2. ágúst 2026. Sektir allt að 35 milljóna evra eða 7% af heildartekjum á heimsvísu. 10. grein krefst nafnleyndar þjálfunargagna.

March 16, 20269 mín lestur
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Niðurtalan hefur byrjað

Uppfært fyrir 2026

Tímafrestur ESB-gervigreindargerðarinnar er raunverulegur. Reglur 10. greinar gilda frá 2. ágúst 2026. Ef teymið þitt byggir eða rekur háhættu-gervigreindakerfi skaltu bregðast við núna. Tíminn er knappur.

Sektir eru hærri en GDPR. Hámarkssektin er 35 milljónar evra eða 7% af heildartekjum á heimsvísu á ársgrundvelli. GDPR er takmarkað við 20 milljóna evra eða 4%. Engin önnur gervigreindalöggjöf hefur hærri sektir.

Hvaða gervigreindarkerfi eru háhættu?

Gervigreindargerðin flokkar kerfi eftir áhættu. Háhættukerfi (III. viðauki) ná yfir gervigreind sem notuð er í:

  • Menntun — skólaadgangur eða þjóðunarskori nemenda
  • Starf — ferilskrá­skoðun, viðtalsskor, starfsmannaeftirlit
  • Lykilþjónustur — lánstraust­mat, tryggingaverð­setning, neyðarútkeyrsla
  • Löggæsla — glæpaspá, líffræðileg auðkenning
  • Heilsugæsla — hugbúnaður lækningartækja, sjúklingaflokkun
  • Grunnvirki — orku-, vatns- eða samgöngustjórnun
  • Réttlæti — lögfræðileg rannsóknatæki, dómssetningartæki

Vinnur þú í einhverjum þessara sviða? 10. grein á við um þig.

10. grein: Fjórar lykilreglur

  1. grein setur reglur fyrir gagnasöfn sem notuð eru af háhættu-gervigreindarkerfum. Hér eru fjórar aðalreglurnar.

1. Skrifleg stjórnun

Gagnasöfn verða að fylgja "viðeigandi stjórnun og rekstrarháttum gagna." Þú þarft skrifleg ferli fyrir innheimtu, gæðaathuganir og áframhaldandi yfirferð.

2. Hlutdrægnisprófun

Færslur verða að vera athugaðar á "mögulega hlutdrægni" sem gæti valdið óréttlætislegu úttaki. Virk prófun er krafist. Að forðast meðvitaða hlutdrægni er ekki nóg.

3. Nákvæmni og þekja

Gagnasöfn verða að vera "viðeigandi, nægilega fullnægjandi og villulaus." Vefskoðun sem missir af tilteknum hópum kann að misheppnast þetta próf.

4. Sérstakar færslutegundirnar

  1. grein, 5. mgr. er beinasta reglan. Þegar háhættukerfi notar sérflokkaðar færslur — heilsa, kynþáttur, trúarbrögð, stjórnmál, lífrænar greiningar — er aðeins heimilt að vinna þær þegar "strikt nauðsynlegt" er fyrir hlutdrægnisprófun. Einnig verður að beita "viðeigandi verndarráðstöfunum." Gagnahreinsun er ein af sterkustu verndarráðstöfununum sem hægt er að nota.

Niðurstaðan: flest AI-líkana-gagnasöfn geyma persónulegar upplýsingar. 10. grein segir notaðu lágmarks­þörf með sterkum tæknilegum verndum.

Sjá lögfræðilega reglufylgni síðu og öryggi yfirlit okkar fyrir nánari upplýsingar.

Sektirlagirnar

ESB-gervigreindargerðin hefur þrjár sektirlag. Allar þeirra fara yfir GDPR fyrir sömu tegund brots:

ReglugerðHámarkssektTekjuþak
GDPR20 milljónar evra4% af heildartekjum
ESB-gervigreindargerð (háhættu)15 milljónar evra3% af heildartekjum
ESB-gervigreindargerð (bannaðar)35 milljónar evra7% af heildartekjum

Gagnagrunnsbrot falla í háhættulagi (€15M / 3%). Ef eftirlitsstofnun telur að notkun persónulegra færslna án verndar sé bönnuð athöfn gildir efsta lag.

Raunveruleg dæmi: 500 milljóna evra tekjur við 3% = 15 milljóna evra sekt. 5 milljarða evra tekjur við 3% = 150 milljóna evra sekt. Þetta eru raunverulegar tölur, ekki kenning.

Hvers vegna gagnahreinsun leysir þetta

Færslur sem eru rétt hreinsaðar falla utan GDPR-sviðs. Það fjarlægir megin­hluta byrðar 10. greinar.

Hörðu reglurnar — meðferð sérflokkaðra gagna, hlutdrægnisprófanir, réttindi gagnaefna — eiga aðeins við þegar gagnasafn geymir persónulegar færslur. Fjarlægðu þær færslur fyrst. Byrðin hverfur að mestu.

CNIL (frönsk gagnaeftirlitsstofnun) gerði þetta skýrt snemma árs 2026. Gervigreindarleiðbeiningar hennar segja þetta: gagnahreinsun persónulegra færslna sem þarf ekki fyrir líkansframmistöðu er aðaltæknileg ráðstöfun fyrir 10. grein.

Þetta er ekki útjaðarsskoðun. Þetta er meginstraumsstaða efstu gervigreindarlögsögu ESB.

Hvað gagnahreinsun þýðir í reynd

Hreinsun AI-líkana-gagnasafna er ekki það sama og hreinsun lifandi framleiðslufærslna. Líkana-gagnasöfn geta geymt:

  • Skjöl með PII — samninga, tölvupósta, skýrslur, stuðningsmiðar
  • Skipulagðar færslur — viðskiptavina­töflur notaðar til að byggja spálíkön
  • Merkt efni — myndir eða texti með nótum sem innihalda persónuleg gögn
  • Tilbúnar færslur — þar sem myndun kann enn að varðveita persónuleg mynstrar

Þú verður að greina PII í öllum þessum sniðum. Að missa af einni tegund útsetur allt gagnasafnið. Samningur með fjarlægt nöfnum en heilar heimilisföng enn í gildi mun kenna líkani að tengja staðsetningu við lýðfræðileg mynstrar.

anonym.legal API sér um runnu­vinnslu stórra AI-gagnasafna. Það greinir 285+ eininga­tegundir yfir 48 tungumál. Fyrir evrópsk gervigreindafyrirtæki með fjöltyngd gagnasöfn er þvertunga­þekja lykilatriði. Brot í einu tungumáli skapar ESB-gervigreindargerðaráhættu yfir allt kerfið.

Fyrir frekari upplýsingar um eininga­greiningu, sjá token-kerfi leiðbeininguna og eininga­tegunda tilvísunina.

Hagnýtar skref: Hreinsun gagnasafns þíns

Skref 1: Endurskoðun fyrst

Keyraðu greiningar­lauð áður en þú hreinsar neitt. Þetta segir þér hvaða PII er til staðar:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Svarið listar upp hverja greindar einingu með tegund, staðsetningu og skori. Keyrðu þetta yfir allar skrárnar þínar til að sjá fulla umfangið áður en þú byrjar.

Skref 2: Runnu­hreinsun

Fyrir stór gagnasöfn skaltu nota runnu­endastöðina til að vinna margar skrár í einu:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Lokið: {result['id']} — {len(result['items'])} einingar fjarlægðar")

Skref 3: Haltu skrám

  1. grein krefst skriflegra skráa um hvað þú gerðir. Fyrir hvert gagnasafn skaltu halda:
  • Greiningar­líkan og útgáfu sem notuð var
  • Hvaða eininga­tegundir fundust og hvernig hvert var skipt út
  • Eininga­fjöldi fjarlægður á gagnasafn
  • Dagsetning hreinsunar og útgáfa gagnasafns sem notuð var

Þetta uppfyllir kröfuna um "stjórnun og rekstrarhætti gagna" í 10. grein, 2. mgr. a.

Algeng spurningar

Brýtur hreinsun niður líkans­gæði?

Í flestum tilvikum, nei. Líkanið lærir mynstrar úr textabyggingu, ekki persónulegum smáatriðum. Nöfn, símanúmer og heimilisföng er hægt að skipta út með frátakamerkjum eins og [NAME] eða [PHONE] og líkanið lærir enn sömu myndstrnar. Margir rannsóknarteymi hafa fundið að hreinsaðar gagnasöfn framleiða líkön af jafnri gæði. Lykilatriðið er að nota samræmdar frátakamerkjum svo líkanið sjái skýrt mynstur.

Hvað ef gagnasafnið mitt er mjög stórt?

Notaðu runnu-API-ið. Það meðhöndlar stór magn samhliða. Verðlagssíðan sýnir áætlanir fyrir notkun í miklu magni. Mörg teymi vinna milljónir færslna á mánuði.

Hvað með gagnasöfn á öðrum tungumálum en ensku?

API-ið styður 48 tungumál. Hvert tungumál notar greiningar­líkan þjálfað á því tungumáli. Þetta þýðir að þýska, franska, spænska, japanska og önnur eru öll studd. Sjá algengar spurningar fyrir fulla tungumálalista. Blönduð-tungumál gagnasöfn eru einnig studd — þú getur tilgreint tungumálið á hvern skjal í runnu­beiðninni.

Colorado AI Act: Tveir frestar

Colorado AI Act tekur gildi 30. júní 2026 — fimm vikum fyrir ESB-frestinn. Hún setur svipaðar reglur fyrir "háhættu-gervigreindarkerfi" samkvæmt ríkislögum. Aðal­áherslan er á hlutdrægni og mismunun.

Teymi bæði í ESB og Colorado standa frammi fyrir tveimur frestum í einu. Hreinsun gagnasafna þinna hjálpar til við að uppfylla bæði lög: 10. grein (ESB) og hlutdrægnisvarna­reglur Colorado. Tæknilegu skrefin eru þau sömu.

Bregðstu við núna

Fimm mánuðir eru nóg — ef þú byrjar í dag. Þeir eru ekki nóg ef þú bíður til júní.

Hagnýt tímalína:

  1. Vikur 1–2: Endurskoðaðu gagnasöfn þín — finndu hvaða persónulegar færslur eru til staðar
  2. Vikur 3–6: Byggðu og prófaðu hreinsunar­leiðsluna þína
  3. Vikur 7–10: Skrifaðu stjórnunar­skrárnar þínar; fáðu lögfræðilega yfirferð
  4. Vikur 11–16: Staðfesting — staðfestu að hreinsaðar gagnasöfn uppfylli gæðareglur 10. greinar
  5. 2. ágúst: Framkvæmdardagur — reglufylgni til staðar

anonym.legal API tengist núverandi leiðslunni þinni án stórra breytinga. Athugaðu verðlagningu fyrir magnáætlanir. Algengar spurningar nær yfir algengar spurningar um 10. grein.

Notaðu GDPR reglufylgni gátlistann fyrir færslur sem skarast milli GDPR og 10. greinar.

ESB-gervigreindargerðin er tilbúin til framkvæmdar. Verður fyrirtæki þitt tilbúið 2. ágúst?

Byrjaðu með GDPR reglufylgni gátlistann →

Takmarkanir og opnar spurningar

Gagnahreinsun fyrir reglur gervigreindargerðarinnar er enn að þróast. Hér eru lykileyðurnar.

Þröskuldur eru ekki skilgreindir. ESB-gervigreindargerðin segir ekki hvert stig hreinsunar er "fullnægjandi." Þar til Evrópugervigreindarskrifstofa gefur út leiðbeiningar stendur þú frammi fyrir lagalegri áhættu. Þú munt kannski ekki vita hvort aðferðin þín mun fullnægja eftirlitsstofnunum.

Endurgreinanleika­áhætta er enn til staðar. Rannsóknir sýna að stór máltæknilíkön geta munað og endurskilað efni úr þjálfunargögnum sínum. Færslur sem stóðust hreinsunarstaðla fyrir þróun líkans gætu enn verið dregnar út. Hreinsun fyrir þróun leysir þetta ekki að fullu.

Tilbúnar færslur hafa takmarkanir. Tilbúin myndun viðheldur tölfræðilegum mynstrum en getur bætt við smávægilegum hlutdrægni eða misst af sjaldgæfum jaðartilfellum. Líkön byggð eingöngu á tilbúnu efni kunna að gefa slæmari árangur á raunverulegum inntökum.

10. grein er enn í túlkun. Setningin "viðeigandi tæknilegar ráðstafanir" þarfnast túlkunar. Snemma DPA-vinna í ESB-aðildarríkjum hefur ekki komist að skýrum staðlinum. Fylgstu með EDPB-leiðbeiningum og ákvarðanar aðildarríkja í gegnum 2026.

Heimildir

  • ESB gervigreindargerð, reglugerð (ESB) 2024/1689, greinar 9–17 (skyldur háhættu-gervigreindar), OJ L 2024/1689
  • ESB gervigreindargerð, 10. grein — Gögn og gagnayfirráð
  • CNIL AI gagnasafns­leiðbeiningar, janúar 2026
  • Colorado AI Act, SB 205, tekur gildi 30. júní 2026
  • ESB gervigreindargerð tímalína: bannaðar framkvæmdir 2. febrúar 2025; háhættukerfi 2. ágúst 2026

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.