Niðurtalan hefur byrjað
Uppfært fyrir 2026
Tímafrestur ESB-gervigreindargerðarinnar er raunverulegur. Reglur 10. greinar gilda frá 2. ágúst 2026. Ef teymið þitt byggir eða rekur háhættu-gervigreindakerfi skaltu bregðast við núna. Tíminn er knappur.
Sektir eru hærri en GDPR. Hámarkssektin er 35 milljónar evra eða 7% af heildartekjum á heimsvísu á ársgrundvelli. GDPR er takmarkað við 20 milljóna evra eða 4%. Engin önnur gervigreindalöggjöf hefur hærri sektir.
Hvaða gervigreindarkerfi eru háhættu?
Gervigreindargerðin flokkar kerfi eftir áhættu. Háhættukerfi (III. viðauki) ná yfir gervigreind sem notuð er í:
- Menntun — skólaadgangur eða þjóðunarskori nemenda
- Starf — ferilskráskoðun, viðtalsskor, starfsmannaeftirlit
- Lykilþjónustur — lánstraustmat, tryggingaverðsetning, neyðarútkeyrsla
- Löggæsla — glæpaspá, líffræðileg auðkenning
- Heilsugæsla — hugbúnaður lækningartækja, sjúklingaflokkun
- Grunnvirki — orku-, vatns- eða samgöngustjórnun
- Réttlæti — lögfræðileg rannsóknatæki, dómssetningartæki
Vinnur þú í einhverjum þessara sviða? 10. grein á við um þig.
10. grein: Fjórar lykilreglur
- grein setur reglur fyrir gagnasöfn sem notuð eru af háhættu-gervigreindarkerfum. Hér eru fjórar aðalreglurnar.
1. Skrifleg stjórnun
Gagnasöfn verða að fylgja "viðeigandi stjórnun og rekstrarháttum gagna." Þú þarft skrifleg ferli fyrir innheimtu, gæðaathuganir og áframhaldandi yfirferð.
2. Hlutdrægnisprófun
Færslur verða að vera athugaðar á "mögulega hlutdrægni" sem gæti valdið óréttlætislegu úttaki. Virk prófun er krafist. Að forðast meðvitaða hlutdrægni er ekki nóg.
3. Nákvæmni og þekja
Gagnasöfn verða að vera "viðeigandi, nægilega fullnægjandi og villulaus." Vefskoðun sem missir af tilteknum hópum kann að misheppnast þetta próf.
4. Sérstakar færslutegundirnar
- grein, 5. mgr. er beinasta reglan. Þegar háhættukerfi notar sérflokkaðar færslur — heilsa, kynþáttur, trúarbrögð, stjórnmál, lífrænar greiningar — er aðeins heimilt að vinna þær þegar "strikt nauðsynlegt" er fyrir hlutdrægnisprófun. Einnig verður að beita "viðeigandi verndarráðstöfunum." Gagnahreinsun er ein af sterkustu verndarráðstöfununum sem hægt er að nota.
Niðurstaðan: flest AI-líkana-gagnasöfn geyma persónulegar upplýsingar. 10. grein segir notaðu lágmarksþörf með sterkum tæknilegum verndum.
Sjá lögfræðilega reglufylgni síðu og öryggi yfirlit okkar fyrir nánari upplýsingar.
Sektirlagirnar
ESB-gervigreindargerðin hefur þrjár sektirlag. Allar þeirra fara yfir GDPR fyrir sömu tegund brots:
| Reglugerð | Hámarkssekt | Tekjuþak |
|---|---|---|
| GDPR | 20 milljónar evra | 4% af heildartekjum |
| ESB-gervigreindargerð (háhættu) | 15 milljónar evra | 3% af heildartekjum |
| ESB-gervigreindargerð (bannaðar) | 35 milljónar evra | 7% af heildartekjum |
Gagnagrunnsbrot falla í háhættulagi (€15M / 3%). Ef eftirlitsstofnun telur að notkun persónulegra færslna án verndar sé bönnuð athöfn gildir efsta lag.
Raunveruleg dæmi: 500 milljóna evra tekjur við 3% = 15 milljóna evra sekt. 5 milljarða evra tekjur við 3% = 150 milljóna evra sekt. Þetta eru raunverulegar tölur, ekki kenning.
Hvers vegna gagnahreinsun leysir þetta
Færslur sem eru rétt hreinsaðar falla utan GDPR-sviðs. Það fjarlægir meginhluta byrðar 10. greinar.
Hörðu reglurnar — meðferð sérflokkaðra gagna, hlutdrægnisprófanir, réttindi gagnaefna — eiga aðeins við þegar gagnasafn geymir persónulegar færslur. Fjarlægðu þær færslur fyrst. Byrðin hverfur að mestu.
CNIL (frönsk gagnaeftirlitsstofnun) gerði þetta skýrt snemma árs 2026. Gervigreindarleiðbeiningar hennar segja þetta: gagnahreinsun persónulegra færslna sem þarf ekki fyrir líkansframmistöðu er aðaltæknileg ráðstöfun fyrir 10. grein.
Þetta er ekki útjaðarsskoðun. Þetta er meginstraumsstaða efstu gervigreindarlögsögu ESB.
Hvað gagnahreinsun þýðir í reynd
Hreinsun AI-líkana-gagnasafna er ekki það sama og hreinsun lifandi framleiðslufærslna. Líkana-gagnasöfn geta geymt:
- Skjöl með PII — samninga, tölvupósta, skýrslur, stuðningsmiðar
- Skipulagðar færslur — viðskiptavinatöflur notaðar til að byggja spálíkön
- Merkt efni — myndir eða texti með nótum sem innihalda persónuleg gögn
- Tilbúnar færslur — þar sem myndun kann enn að varðveita persónuleg mynstrar
Þú verður að greina PII í öllum þessum sniðum. Að missa af einni tegund útsetur allt gagnasafnið. Samningur með fjarlægt nöfnum en heilar heimilisföng enn í gildi mun kenna líkani að tengja staðsetningu við lýðfræðileg mynstrar.
anonym.legal API sér um runnuvinnslu stórra AI-gagnasafna. Það greinir 285+ einingategundir yfir 48 tungumál. Fyrir evrópsk gervigreindafyrirtæki með fjöltyngd gagnasöfn er þvertungaþekja lykilatriði. Brot í einu tungumáli skapar ESB-gervigreindargerðaráhættu yfir allt kerfið.
Fyrir frekari upplýsingar um einingagreiningu, sjá token-kerfi leiðbeininguna og einingategunda tilvísunina.
Hagnýtar skref: Hreinsun gagnasafns þíns
Skref 1: Endurskoðun fyrst
Keyraðu greiningarlauð áður en þú hreinsar neitt. Þetta segir þér hvaða PII er til staðar:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Svarið listar upp hverja greindar einingu með tegund, staðsetningu og skori. Keyrðu þetta yfir allar skrárnar þínar til að sjá fulla umfangið áður en þú byrjar.
Skref 2: Runnuhreinsun
Fyrir stór gagnasöfn skaltu nota runnuendastöðina til að vinna margar skrár í einu:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Lokið: {result['id']} — {len(result['items'])} einingar fjarlægðar")
Skref 3: Haltu skrám
- grein krefst skriflegra skráa um hvað þú gerðir. Fyrir hvert gagnasafn skaltu halda:
- Greiningarlíkan og útgáfu sem notuð var
- Hvaða einingategundir fundust og hvernig hvert var skipt út
- Einingafjöldi fjarlægður á gagnasafn
- Dagsetning hreinsunar og útgáfa gagnasafns sem notuð var
Þetta uppfyllir kröfuna um "stjórnun og rekstrarhætti gagna" í 10. grein, 2. mgr. a.
Algeng spurningar
Brýtur hreinsun niður líkansgæði?
Í flestum tilvikum, nei. Líkanið lærir mynstrar úr textabyggingu, ekki persónulegum smáatriðum. Nöfn, símanúmer og heimilisföng er hægt að skipta út með frátakamerkjum eins og [NAME] eða [PHONE] og líkanið lærir enn sömu myndstrnar. Margir rannsóknarteymi hafa fundið að hreinsaðar gagnasöfn framleiða líkön af jafnri gæði. Lykilatriðið er að nota samræmdar frátakamerkjum svo líkanið sjái skýrt mynstur.
Hvað ef gagnasafnið mitt er mjög stórt?
Notaðu runnu-API-ið. Það meðhöndlar stór magn samhliða. Verðlagssíðan sýnir áætlanir fyrir notkun í miklu magni. Mörg teymi vinna milljónir færslna á mánuði.
Hvað með gagnasöfn á öðrum tungumálum en ensku?
API-ið styður 48 tungumál. Hvert tungumál notar greiningarlíkan þjálfað á því tungumáli. Þetta þýðir að þýska, franska, spænska, japanska og önnur eru öll studd. Sjá algengar spurningar fyrir fulla tungumálalista. Blönduð-tungumál gagnasöfn eru einnig studd — þú getur tilgreint tungumálið á hvern skjal í runnubeiðninni.
Colorado AI Act: Tveir frestar
Colorado AI Act tekur gildi 30. júní 2026 — fimm vikum fyrir ESB-frestinn. Hún setur svipaðar reglur fyrir "háhættu-gervigreindarkerfi" samkvæmt ríkislögum. Aðaláherslan er á hlutdrægni og mismunun.
Teymi bæði í ESB og Colorado standa frammi fyrir tveimur frestum í einu. Hreinsun gagnasafna þinna hjálpar til við að uppfylla bæði lög: 10. grein (ESB) og hlutdrægnisvarnareglur Colorado. Tæknilegu skrefin eru þau sömu.
Bregðstu við núna
Fimm mánuðir eru nóg — ef þú byrjar í dag. Þeir eru ekki nóg ef þú bíður til júní.
Hagnýt tímalína:
- Vikur 1–2: Endurskoðaðu gagnasöfn þín — finndu hvaða persónulegar færslur eru til staðar
- Vikur 3–6: Byggðu og prófaðu hreinsunarleiðsluna þína
- Vikur 7–10: Skrifaðu stjórnunarskrárnar þínar; fáðu lögfræðilega yfirferð
- Vikur 11–16: Staðfesting — staðfestu að hreinsaðar gagnasöfn uppfylli gæðareglur 10. greinar
- 2. ágúst: Framkvæmdardagur — reglufylgni til staðar
anonym.legal API tengist núverandi leiðslunni þinni án stórra breytinga. Athugaðu verðlagningu fyrir magnáætlanir. Algengar spurningar nær yfir algengar spurningar um 10. grein.
Notaðu GDPR reglufylgni gátlistann fyrir færslur sem skarast milli GDPR og 10. greinar.
ESB-gervigreindargerðin er tilbúin til framkvæmdar. Verður fyrirtæki þitt tilbúið 2. ágúst?
Byrjaðu með GDPR reglufylgni gátlistann →
Takmarkanir og opnar spurningar
Gagnahreinsun fyrir reglur gervigreindargerðarinnar er enn að þróast. Hér eru lykileyðurnar.
Þröskuldur eru ekki skilgreindir. ESB-gervigreindargerðin segir ekki hvert stig hreinsunar er "fullnægjandi." Þar til Evrópugervigreindarskrifstofa gefur út leiðbeiningar stendur þú frammi fyrir lagalegri áhættu. Þú munt kannski ekki vita hvort aðferðin þín mun fullnægja eftirlitsstofnunum.
Endurgreinanleikaáhætta er enn til staðar. Rannsóknir sýna að stór máltæknilíkön geta munað og endurskilað efni úr þjálfunargögnum sínum. Færslur sem stóðust hreinsunarstaðla fyrir þróun líkans gætu enn verið dregnar út. Hreinsun fyrir þróun leysir þetta ekki að fullu.
Tilbúnar færslur hafa takmarkanir. Tilbúin myndun viðheldur tölfræðilegum mynstrum en getur bætt við smávægilegum hlutdrægni eða misst af sjaldgæfum jaðartilfellum. Líkön byggð eingöngu á tilbúnu efni kunna að gefa slæmari árangur á raunverulegum inntökum.
10. grein er enn í túlkun. Setningin "viðeigandi tæknilegar ráðstafanir" þarfnast túlkunar. Snemma DPA-vinna í ESB-aðildarríkjum hefur ekki komist að skýrum staðlinum. Fylgstu með EDPB-leiðbeiningum og ákvarðanar aðildarríkja í gegnum 2026.
Heimildir
- ESB gervigreindargerð, reglugerð (ESB) 2024/1689, greinar 9–17 (skyldur háhættu-gervigreindar), OJ L 2024/1689
- ESB gervigreindargerð, 10. grein — Gögn og gagnayfirráð
- CNIL AI gagnasafnsleiðbeiningar, janúar 2026
- Colorado AI Act, SB 205, tekur gildi 30. júní 2026
- ESB gervigreindargerð tímalína: bannaðar framkvæmdir 2. febrúar 2025; háhættukerfi 2. ágúst 2026