Atzerako Kontaketa Hasi Da
2026rako eguneratua
EBko AI Legediko epemuga errealak dira. 10. Artikuluko arauak 2026ko abuztuaren 2tik aplikatzen dira. Zure taldeak arrisku altuko AI sistema eraikitzen edo exekutatzen badu, ekitu orain. Denbora gutxi geratzen da.
Isunak GDPR baino altuagoak dira. Isun gehiena 35 milioi euro edo mundu mailako urteko fakturazioren %7 da. GDPRa 20 milioi euro edo %4an mugatzen da. Ez dago beste AI legedik isun altuagoekin.
Zein AI Sistema Daude Arrisku Altuan?
AI Legediak sistemak arriskuaren arabera sailkatzen du. Arrisku altuko sistemak (III. Eranskinak) hauetan erabilitako AI barne hartzen ditu:
- Hezkuntza -- eskola sarbidea edo ikasleen puntuazioa
- Lana -- curriculum garbiketa, elkarrizketa puntuazioa, langile monitorizazioa
- Zerbitzu nagusiak -- kreditu puntuazioa, aseguruen prezioa, larrialdi deiak
- Legea betearaztea -- krime iragarpena, biometrika ID
- Osasuna -- mediku gailu softwarea, pazienteen triagea
- Azpiegitura -- energia, ur edo garraio kudeaketa
- Justizia -- lege ikerketa tresnak, kondena tresnak
Hauetatik edozeinetan lan egiten duzu? 10. Artikulua zure gain dago.
10. Artikulua: Lau Arau Nagusi
- Artikuluak arrisku altuko AI sistemek erabilitako datu-multzoetarako arauak ezartzen ditu. Hona hemen lau nagusiak.
1. Gobernantza Idatzia
Datu-multzoek "datu gobernantza eta kudeaketa egokia" jarraitu behar dute. Bilketa, kalitate egiaztapena eta jarraipen ikuskapen urrats idatziak behar dituzu.
2. Alborapen Probak
Erregistroak emaitza desorekatuak sor ditzaketen "alborapen posibleen" bila egiaztatu behar dira. Proba aktiboa beharrezkoa da. Nahita alborapena saihestea ez da nahikoa.
3. Zehaztasuna eta Estaldura
Datu-multzoek "garrantzitsuak, nahikoa ordezkagarriak eta akatsetatik gabeak" izan behar dute. Talde batzuk galtzen dituzten web bilaketek proba hau gainditu ez dezakete.
4. Erregistro Mota Bereziak
10(5). Artikulua da araurik zuzenena. Arrisku altuko sistema batek erregistro mota bereziak erabiltzen dituenean -- osasuna, arraza, erlijioa, politika, biometrika -- "erabat beharrezkoa" denean bakarrik prozesa ditzakezu alborapen egiaztatzetarako. "Babes neurri egokiak" ere aplikatu behar dituzu. Datu garbiketa erabil dezakezun babes neurri sendo bat da.
Ondorioa: AI modelo datu-multzo gehienek erregistro pertsonalak gordetzen dituzte. 10. Artikuluak dio behar dena bakarrik erabili, babes tekniko sendoekin.
Ikusi gure legezkotasun betetze orria eta segurtasun ikuspegi orokorra xehetasunetarako.
Isun Mailak
EBko AI Legediak hiru isun maila ditu. Denak GDPR baino altuagoak dira hauste mota berarekin:
| Araudia | Isun Gehiena | Fakturazio Muga |
|---|---|---|
| GDPR | 20 milioi euro | Mundu mailako fakturazioren %4 |
| EBko AI Legedia (arrisku altua) | 15 milioi euro | Mundu mailako fakturazioren %3 |
| EBko AI Legedia (debekatua) | 35 milioi euro | Mundu mailako fakturazioren %7 |
Datu-multzo hausturak arrisku altuko mailan kokatzen dira (15M euro / %3). Arautzaile batek babes-neurririk gabe erregistro pertsonalak erabiltzea ekintza debekatua dela aurkitzen badu, maila gorena aplikatzen da.
Benetako adibideak: 500 milioi euroko fakturazioaren %3 = 15 milioi euro. 5.000 milioi euroko fakturazioaren %3 = 150 milioi euro. Hauek benetako zenbakiak dira, ez teoria.
Zergatik Garbiketa Hau Konpontzen Duen
Behar bezala garbitutako erregistroak GDPR esparrutik kanpo gelditzen dira. Honek 10. Artikuluko karga gehiena kentzen du.
Arau gogorrak -- erregistro mota berezi kudeaketa, alborapen egiaztapenak, datu subjektuen eskubideak -- datu-multzoak erregistro pertsonalak dituenean soilik aplikatzen dira. Kendu erregistro horiek lehenik. Karga gehiena desagertzen da.
CNILek (Frantziako datu agintaritzak) hau argi egin zuen 2026 hasieran. Bere AI gidalerroak hau dio: modelo errendimenduarako behar ez diren erregistro pertsonalen datu garbiketa 10. Artikulurako neurri tekniko nagusia da.
Hau ez da ikusmolde marjinal bat. EBko arrisku arautzaile nagusiaren puntu nagusia da.
Zer Esan Nahi Duen Datu Garbiketak Praktikan
AI modelo datu-multzoak garbitzea ez da berdina bezeroaren erregistro aktiboak garbitzearen. Modelo datu-multzoak eduki dezakete:
- PII duten dokumentuak -- kontratuak, emailak, txostenak, laguntza txartelak
- Erregistro egituratuak -- eredu iragarkorrak eraikitzeko erabilitako bezero taulak
- Etiketatutako edukia -- erregistro pertsonalak dituzten oharrak dituzten irudiak edo testua
- Erregistro sintetikoak -- sorkuntzak eredu pertsonalak gorde ditzake oraindik
PII detektatu behar duzu formatu guztietan. Mota bat galtzeak datu-multzo osoa agerian uzten du. Izenak kendutako baina helbide osoak oraindik zituen kontratua bat kokapena datu demografikoekin lotzen ikasten duen modelo bat eratzen lagunduko du.
anonym.legal APIak AI datu-multzo handietarako batch prozesatzea kudeatzen du. 285+ entitate mota detektatzen ditu 48 hizkuntzatan. Hizkuntza anitzeko datu-multzoak dituzten Europako AI enpresenrako, hizkuntzen arteko estaldura kritikoa da. Hizkuntza bateko hutsune batek AI Legediaren arrisku osoa sortzen du sistema osoan.
Entitate detekzioari buruz gehiago jakiteko, ikusi token sistema gida eta entitate mota erreferentzia.
Urrats Praktikoak: Zure Datu-Multzoa Garbitu
1. Urratsa: Lehenik ikuskaritu
Detekzio pasada bat egin garbitu aurretik. Honek zein PII dagoen esaten dizu:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer ZURE_API_GAKOA" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Erantzunak detektatutako entitate bakoitza zerrendatzen du bere motan, posizioan eta puntuazioan. Hau zure fitxategi guztietan exekutatu hasi baino lehenagoko esparru osoa ikusteko.
2. Urratsa: Batch garbiketa
Datu-multzo handietarako, erabili batch endpoint fitxategi asko aldi berean prozesatzeko:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Eginda: {result['id']} -- {len(result['items'])} entitate kendu dira")
3. Urratsa: Erregistroak gorde
- Artikuluak egin duzunaren erregistro idatziak eskatzen ditu. Datu-multzo bakoitzarentzat, gorde:
- Erabilitako detekzio eredua eta bertsioa
- Zein entitate mota aurkitu ziren eta nola ordezkatu zen bakoitza
- Datu-multzo bakoitzean kendutako entitate kopuruak
- Garbiketa data eta erabilitako datu-multzo bertsioa
Honek 10(2)(a). Artikuluko "datu gobernantza eta kudeaketa praktikak" eskakizuna betetzen du.
Ohiko Galderak
Garbiketak modelo kalitatea apurtzen du?
Kasu gehienetan, ez. Modeloak testuaren egitura ereduetatik ikasten du, ez datu pertsonaletatik. Izenak, telefono-zenbakiak eta helbideak [IZENA] edo [TELEFONOA] bezalako leku-hartzaileekin ordezkatu daitezke eta modeloak eredu berdinak ikasten jarraitzen du. Ikerketa talde askok ikusi dute garbitutako datu-multzoek kalitate berdineko modeloak ekoizten dituztela. Gakoa da leku-hartzaile koherenteak erabiltzea modeloak eredu argia ikus dezan.
Nire datu-multzoa oso handia bada?
Erabili batch APIa. Bolumen handiak paraleloan kudeatzen ditu. Prezioen orriak bolumen handiko erabilera kasurako planak erakusten ditu. Talde askok hilero milioi erregistro prozesatzen ditu.
Ingelesez ez diren datu-multzoen kasuan?
APIak 48 hizkuntza onartzen ditu. Hizkuntza bakoitzak hizkuntza horretan entrenatutako detekzio modelo bat erabiltzen du. Honek alemana, frantsesa, gaztelania, japoniera eta beste hizkuntza guztiak estaltzen direla esan nahi du. Ikusi FAQ hizkuntza zerrenda osoa. Hizkuntza mistoko datu-multzoak ere onartzen dira -- batch eskaeran dokumentu bakoitzeko hizkuntza zehaztu dezakezu.
Colorado AI Legedia: Bi Epemuga
Coloradoko AI Legedia 2026ko ekainaren 30ean indarrean sartzen da -- EBko epemuga baino bost aste lehenago. Estatuko legearen araupeko "arrisku altuko AI sistemak" antzeko arauak ezartzen ditu. Arreta nagusia alborapena eta diskriminazioa da.
EB eta Colorado bietan lan egiten duten taldeek aldi berean bi epemuga dituzte. Zure datu-multzoak garbitzeak bi legeak betetzen laguntzen du: 10. Artikulua (EB) eta Coloradoko alborapen aurkako arauak. Urrats teknikoak berdinak dira.
Ekitu Orain
Bost hilabete nahikoa da -- gaur hasten bazara. Ez da nahikoa ekainera arte itxaroten baduzu.
Egutegi praktikoa:
- 1-2. Asteak: Ikuskatu zure datu-multzoak -- aurkitu zein erregistro pertsonal dauden
- 3-6. Asteak: Eraiki eta probatu zure garbiketa kanalizazioa
- 7-10. Asteak: Idatzi zure gobernantza erregistroak; lortu legearen ikuspegi orokorra
- 11-16. Asteak: Balioztatu -- berretsi garbitutako datu-multzoak 10. Artikuluko kalitate arauak betetzen dituztela
- Abuztuaren 2: Betearazpen data -- betetze praktikak martxan
anonym.legal APIa zure egungo kanalizazioan txertatzen da aldaketa handiak gabe. Egiaztatu prezioak bolumen planetarako. FAQ-k ohiko 10. Artikuluko galderak barne hartzen ditu.
Erabili GDPR betetze zerrenda GDPR eta 10. Artikuluaren artean gainjartzen diren erregistroetarako.
EBko AI Legedia betearazteko prest dago. Zure erakundea abuztuaren 2rako prest egongo da?
Hasi GDPR betetze zerrendararekin
Mugak eta Galdera Irekiak
AI Legediaren arauentzako datu garbiketa oraindik garatzen ari da. Hona hemen hutsune nagusiak.
Atariak ez daude definituta. EBko AI Legediak ez du esaten zein garbiketa maila den "nahikoa." Europako AI Bulegoak gidalerroak igortzen dituen arte, arrisku juridikoa duzu. Agian ez dakizu zure metodoak arautzaileak asetuko dituen.
Berreridentifikazio arriskuak irauten du. Ikerketak erakutsi du hizkuntza-modelo handiek beren datu-multzetako edukia memorizatu eta errepikatzen dutela. Modelo garapenaren aurretiko garbiketa estandarrak gainditu zituzten erregistroak oraindik erauzgarri izan daitezke. Garapena baino lehenagoko garbiketa ez da arazo hau guztiz konpontzen.
Erregistro sintetikoek mugak dituzte. Sintesi sorkuntza eredu estatistikoak mantentzen ditu baina alborapen sotilak gehitu edo ertz kasu arraroak galdu ditzake. Eduki sintetikoan soilik oinarritutako modeloak sarrera errealetan gaizki funtzionatu dezakete.
10. Artikulua oraindik interpretatzen ari da. "Neurri tekniko egokiak" esaldiak interpretazioa behar du. EB kide-estatuetako DPAen lehen lanek estandar argietan oraindik ez dute adostasunik. Begiratu EDPB gidalerroak eta kide-estatuen erabakiak 2026 zehar.
Iturriak
- EBko AI Legedia, (EU) 2024/1689 Araudia, 9-17. Artikuluak (arrisku altuko AI betebeharrak), OJ L 2024/1689
- EBko AI Legedia, 10. Artikulua -- Datuak eta datuen gobernantza
- CNIL AI datu-multzo gidalerroak, 2026ko urtarrila
- Colorado AI Legedia, SB 205, 2026ko ekainaren 30ean indarrean
- EBko AI Legedia denbora-lerroa: ekintza debekatuak 2025eko otsailaren 2a; arrisku altuko sistemak 2026ko abuztuaren 2a