Atzerako Kontaketa Hasi Da

2026rako eguneratua

EBko AI Legediko epemuga errealak dira. 10. Artikuluko arauak 2026ko abuztuaren 2tik aplikatzen dira. Zure taldeak arrisku altuko AI sistema eraikitzen edo exekutatzen badu, ekitu orain. Denbora gutxi geratzen da.

Isunak GDPR baino altuagoak dira. Isun gehiena 35 milioi euro edo mundu mailako urteko fakturazioren %7 da. GDPRa 20 milioi euro edo %4an mugatzen da. Ez dago beste AI legedik isun altuagoekin.

Zein AI Sistema Daude Arrisku Altuan?

AI Legediak sistemak arriskuaren arabera sailkatzen du. Arrisku altuko sistemak (III. Eranskinak) hauetan erabilitako AI barne hartzen ditu:

Hezkuntza -- eskola sarbidea edo ikasleen puntuazioa
Lana -- curriculum garbiketa, elkarrizketa puntuazioa, langile monitorizazioa
Zerbitzu nagusiak -- kreditu puntuazioa, aseguruen prezioa, larrialdi deiak
Legea betearaztea -- krime iragarpena, biometrika ID
Osasuna -- mediku gailu softwarea, pazienteen triagea
Azpiegitura -- energia, ur edo garraio kudeaketa
Justizia -- lege ikerketa tresnak, kondena tresnak

Hauetatik edozeinetan lan egiten duzu? 10. Artikulua zure gain dago.

10. Artikulua: Lau Arau Nagusi

Artikuluak arrisku altuko AI sistemek erabilitako datu-multzoetarako arauak ezartzen ditu. Hona hemen lau nagusiak.

1. Gobernantza Idatzia

Datu-multzoek "datu gobernantza eta kudeaketa egokia" jarraitu behar dute. Bilketa, kalitate egiaztapena eta jarraipen ikuskapen urrats idatziak behar dituzu.

2. Alborapen Probak

Erregistroak emaitza desorekatuak sor ditzaketen "alborapen posibleen" bila egiaztatu behar dira. Proba aktiboa beharrezkoa da. Nahita alborapena saihestea ez da nahikoa.

3. Zehaztasuna eta Estaldura

Datu-multzoek "garrantzitsuak, nahikoa ordezkagarriak eta akatsetatik gabeak" izan behar dute. Talde batzuk galtzen dituzten web bilaketek proba hau gainditu ez dezakete.

4. Erregistro Mota Bereziak

10(5). Artikulua da araurik zuzenena. Arrisku altuko sistema batek erregistro mota bereziak erabiltzen dituenean -- osasuna, arraza, erlijioa, politika, biometrika -- "erabat beharrezkoa" denean bakarrik prozesa ditzakezu alborapen egiaztatzetarako. "Babes neurri egokiak" ere aplikatu behar dituzu. Datu garbiketa erabil dezakezun babes neurri sendo bat da.

Ondorioa: AI modelo datu-multzo gehienek erregistro pertsonalak gordetzen dituzte. 10. Artikuluak dio behar dena bakarrik erabili, babes tekniko sendoekin.

Ikusi gure legezkotasun betetze orria eta segurtasun ikuspegi orokorra xehetasunetarako.

Isun Mailak

EBko AI Legediak hiru isun maila ditu. Denak GDPR baino altuagoak dira hauste mota berarekin:

Araudia	Isun Gehiena	Fakturazio Muga
GDPR	20 milioi euro	Mundu mailako fakturazioren %4
EBko AI Legedia (arrisku altua)	15 milioi euro	Mundu mailako fakturazioren %3
EBko AI Legedia (debekatua)	35 milioi euro	Mundu mailako fakturazioren %7

Datu-multzo hausturak arrisku altuko mailan kokatzen dira (15M euro / %3). Arautzaile batek babes-neurririk gabe erregistro pertsonalak erabiltzea ekintza debekatua dela aurkitzen badu, maila gorena aplikatzen da.

Benetako adibideak: 500 milioi euroko fakturazioaren %3 = 15 milioi euro. 5.000 milioi euroko fakturazioaren %3 = 150 milioi euro. Hauek benetako zenbakiak dira, ez teoria.

Zergatik Garbiketa Hau Konpontzen Duen

Behar bezala garbitutako erregistroak GDPR esparrutik kanpo gelditzen dira. Honek 10. Artikuluko karga gehiena kentzen du.

Arau gogorrak -- erregistro mota berezi kudeaketa, alborapen egiaztapenak, datu subjektuen eskubideak -- datu-multzoak erregistro pertsonalak dituenean soilik aplikatzen dira. Kendu erregistro horiek lehenik. Karga gehiena desagertzen da.

CNILek (Frantziako datu agintaritzak) hau argi egin zuen 2026 hasieran. Bere AI gidalerroak hau dio: modelo errendimenduarako behar ez diren erregistro pertsonalen datu garbiketa 10. Artikulurako neurri tekniko nagusia da.

Hau ez da ikusmolde marjinal bat. EBko arrisku arautzaile nagusiaren puntu nagusia da.

Zer Esan Nahi Duen Datu Garbiketak Praktikan

AI modelo datu-multzoak garbitzea ez da berdina bezeroaren erregistro aktiboak garbitzearen. Modelo datu-multzoak eduki dezakete:

PII duten dokumentuak -- kontratuak, emailak, txostenak, laguntza txartelak
Erregistro egituratuak -- eredu iragarkorrak eraikitzeko erabilitako bezero taulak
Etiketatutako edukia -- erregistro pertsonalak dituzten oharrak dituzten irudiak edo testua
Erregistro sintetikoak -- sorkuntzak eredu pertsonalak gorde ditzake oraindik

PII detektatu behar duzu formatu guztietan. Mota bat galtzeak datu-multzo osoa agerian uzten du. Izenak kendutako baina helbide osoak oraindik zituen kontratua bat kokapena datu demografikoekin lotzen ikasten duen modelo bat eratzen lagunduko du.

anonym.legal APIak AI datu-multzo handietarako batch prozesatzea kudeatzen du. 285+ entitate mota detektatzen ditu 48 hizkuntzatan. Hizkuntza anitzeko datu-multzoak dituzten Europako AI enpresenrako, hizkuntzen arteko estaldura kritikoa da. Hizkuntza bateko hutsune batek AI Legediaren arrisku osoa sortzen du sistema osoan.

Entitate detekzioari buruz gehiago jakiteko, ikusi token sistema gida eta entitate mota erreferentzia.

Urrats Praktikoak: Zure Datu-Multzoa Garbitu

1. Urratsa: Lehenik ikuskaritu

Detekzio pasada bat egin garbitu aurretik. Honek zein PII dagoen esaten dizu:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer ZURE_API_GAKOA" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Erantzunak detektatutako entitate bakoitza zerrendatzen du bere motan, posizioan eta puntuazioan. Hau zure fitxategi guztietan exekutatu hasi baino lehenagoko esparru osoa ikusteko.

2. Urratsa: Batch garbiketa

Datu-multzo handietarako, erabili batch endpoint fitxategi asko aldi berean prozesatzeko:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Eginda: {result['id']} -- {len(result['items'])} entitate kendu dira")

3. Urratsa: Erregistroak gorde

Artikuluak egin duzunaren erregistro idatziak eskatzen ditu. Datu-multzo bakoitzarentzat, gorde:

Erabilitako detekzio eredua eta bertsioa
Zein entitate mota aurkitu ziren eta nola ordezkatu zen bakoitza
Datu-multzo bakoitzean kendutako entitate kopuruak
Garbiketa data eta erabilitako datu-multzo bertsioa

Honek 10(2)(a). Artikuluko "datu gobernantza eta kudeaketa praktikak" eskakizuna betetzen du.

Ohiko Galderak

Garbiketak modelo kalitatea apurtzen du?

Kasu gehienetan, ez. Modeloak testuaren egitura ereduetatik ikasten du, ez datu pertsonaletatik. Izenak, telefono-zenbakiak eta helbideak [IZENA] edo [TELEFONOA] bezalako leku-hartzaileekin ordezkatu daitezke eta modeloak eredu berdinak ikasten jarraitzen du. Ikerketa talde askok ikusi dute garbitutako datu-multzoek kalitate berdineko modeloak ekoizten dituztela. Gakoa da leku-hartzaile koherenteak erabiltzea modeloak eredu argia ikus dezan.

Nire datu-multzoa oso handia bada?

Erabili batch APIa. Bolumen handiak paraleloan kudeatzen ditu. Prezioen orriak bolumen handiko erabilera kasurako planak erakusten ditu. Talde askok hilero milioi erregistro prozesatzen ditu.

Ingelesez ez diren datu-multzoen kasuan?

APIak 48 hizkuntza onartzen ditu. Hizkuntza bakoitzak hizkuntza horretan entrenatutako detekzio modelo bat erabiltzen du. Honek alemana, frantsesa, gaztelania, japoniera eta beste hizkuntza guztiak estaltzen direla esan nahi du. Ikusi FAQ hizkuntza zerrenda osoa. Hizkuntza mistoko datu-multzoak ere onartzen dira -- batch eskaeran dokumentu bakoitzeko hizkuntza zehaztu dezakezu.

Colorado AI Legedia: Bi Epemuga

Coloradoko AI Legedia 2026ko ekainaren 30ean indarrean sartzen da -- EBko epemuga baino bost aste lehenago. Estatuko legearen araupeko "arrisku altuko AI sistemak" antzeko arauak ezartzen ditu. Arreta nagusia alborapena eta diskriminazioa da.

EB eta Colorado bietan lan egiten duten taldeek aldi berean bi epemuga dituzte. Zure datu-multzoak garbitzeak bi legeak betetzen laguntzen du: 10. Artikulua (EB) eta Coloradoko alborapen aurkako arauak. Urrats teknikoak berdinak dira.

Ekitu Orain

Bost hilabete nahikoa da -- gaur hasten bazara. Ez da nahikoa ekainera arte itxaroten baduzu.

Egutegi praktikoa:

1-2. Asteak: Ikuskatu zure datu-multzoak -- aurkitu zein erregistro pertsonal dauden
3-6. Asteak: Eraiki eta probatu zure garbiketa kanalizazioa
7-10. Asteak: Idatzi zure gobernantza erregistroak; lortu legearen ikuspegi orokorra
11-16. Asteak: Balioztatu -- berretsi garbitutako datu-multzoak 10. Artikuluko kalitate arauak betetzen dituztela
Abuztuaren 2: Betearazpen data -- betetze praktikak martxan

anonym.legal APIa zure egungo kanalizazioan txertatzen da aldaketa handiak gabe. Egiaztatu prezioak bolumen planetarako. FAQ-k ohiko 10. Artikuluko galderak barne hartzen ditu.

Erabili GDPR betetze zerrenda GDPR eta 10. Artikuluaren artean gainjartzen diren erregistroetarako.

EBko AI Legedia betearazteko prest dago. Zure erakundea abuztuaren 2rako prest egongo da?

Hasi GDPR betetze zerrendararekin

Mugak eta Galdera Irekiak

AI Legediaren arauentzako datu garbiketa oraindik garatzen ari da. Hona hemen hutsune nagusiak.

Atariak ez daude definituta. EBko AI Legediak ez du esaten zein garbiketa maila den "nahikoa." Europako AI Bulegoak gidalerroak igortzen dituen arte, arrisku juridikoa duzu. Agian ez dakizu zure metodoak arautzaileak asetuko dituen.

Berreridentifikazio arriskuak irauten du. Ikerketak erakutsi du hizkuntza-modelo handiek beren datu-multzetako edukia memorizatu eta errepikatzen dutela. Modelo garapenaren aurretiko garbiketa estandarrak gainditu zituzten erregistroak oraindik erauzgarri izan daitezke. Garapena baino lehenagoko garbiketa ez da arazo hau guztiz konpontzen.

Erregistro sintetikoek mugak dituzte. Sintesi sorkuntza eredu estatistikoak mantentzen ditu baina alborapen sotilak gehitu edo ertz kasu arraroak galdu ditzake. Eduki sintetikoan soilik oinarritutako modeloak sarrera errealetan gaizki funtzionatu dezakete.

10. Artikulua oraindik interpretatzen ari da. "Neurri tekniko egokiak" esaldiak interpretazioa behar du. EB kide-estatuetako DPAen lehen lanek estandar argietan oraindik ez dute adostasunik. Begiratu EDPB gidalerroak eta kide-estatuen erabakiak 2026 zehar.

Iturriak

EBko AI Legedia, (EU) 2024/1689 Araudia, 9-17. Artikuluak (arrisku altuko AI betebeharrak), OJ L 2024/1689
EBko AI Legedia, 10. Artikulua -- Datuak eta datuen gobernantza
CNIL AI datu-multzo gidalerroak, 2026ko urtarrila
Colorado AI Legedia, SB 205, 2026ko ekainaren 30ean indarrean
EBko AI Legedia denbora-lerroa: ekintza debekatuak 2025eko otsailaren 2a; arrisku altuko sistemak 2026ko abuztuaren 2a

EBko AI Legedia 2026ko Abuztua: Entrenamenduko Datuak Anonimizatzea 10. Artikulua Betetzeko

Atzerako Kontaketa Hasi Da

Zein AI Sistema Daude Arrisku Altuan?

10. Artikulua: Lau Arau Nagusi

Isun Mailak

Zergatik Garbiketa Hau Konpontzen Duen

Zer Esan Nahi Duen Datu Garbiketak Praktikan

Urrats Praktikoak: Zure Datu-Multzoa Garbitu

Ohiko Galderak

Colorado AI Legedia: Bi Epemuga

Ekitu Orain

Mugak eta Galdera Irekiak

Iturriak

Lotutako Artikuluak

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Prest zure datuak babesteko?

EBko AI Legedia 2026ko Abuztua: Entrenamenduko Datuak Anonimizatzea 10. Artikulua Betetzeko

Atzerako Kontaketa Hasi Da

Zein AI Sistema Daude Arrisku Altuan?

10. Artikulua: Lau Arau Nagusi

Isun Mailak

Zergatik Garbiketa Hau Konpontzen Duen

Zer Esan Nahi Duen Datu Garbiketak Praktikan

Urrats Praktikoak: Zure Datu-Multzoa Garbitu

Ohiko Galderak

Colorado AI Legedia: Bi Epemuga

Ekitu Orain

Mugak eta Galdera Irekiak

Iturriak

Lotutako Artikuluak

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Prest zure datuak babesteko?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow