Itzuli BlogeraGDPR & Betetze

EBko AI Legedia 2026ko Abuztua: Entrenamenduko Datuak Anonimizatzea 10. Artikulua Betetzeko

EBko AI Legediaren betearazpen osoa 2026ko abuztuaren 2an hasten da. Isunak 35 milioi eurorainoko edo mundu mailako fakturazioen %7raino. 10. Artikuluak entrenamenduko datuen anonimizazioa eskatzen du.

March 16, 20269 min irakurri
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Atzerako Kontaketa Hasi Da

2026rako eguneratua

EBko AI Legediko epemuga errealak dira. 10. Artikuluko arauak 2026ko abuztuaren 2tik aplikatzen dira. Zure taldeak arrisku altuko AI sistema eraikitzen edo exekutatzen badu, ekitu orain. Denbora gutxi geratzen da.

Isunak GDPR baino altuagoak dira. Isun gehiena 35 milioi euro edo mundu mailako urteko fakturazioren %7 da. GDPRa 20 milioi euro edo %4an mugatzen da. Ez dago beste AI legedik isun altuagoekin.

Zein AI Sistema Daude Arrisku Altuan?

AI Legediak sistemak arriskuaren arabera sailkatzen du. Arrisku altuko sistemak (III. Eranskinak) hauetan erabilitako AI barne hartzen ditu:

  • Hezkuntza -- eskola sarbidea edo ikasleen puntuazioa
  • Lana -- curriculum garbiketa, elkarrizketa puntuazioa, langile monitorizazioa
  • Zerbitzu nagusiak -- kreditu puntuazioa, aseguruen prezioa, larrialdi deiak
  • Legea betearaztea -- krime iragarpena, biometrika ID
  • Osasuna -- mediku gailu softwarea, pazienteen triagea
  • Azpiegitura -- energia, ur edo garraio kudeaketa
  • Justizia -- lege ikerketa tresnak, kondena tresnak

Hauetatik edozeinetan lan egiten duzu? 10. Artikulua zure gain dago.

10. Artikulua: Lau Arau Nagusi

  1. Artikuluak arrisku altuko AI sistemek erabilitako datu-multzoetarako arauak ezartzen ditu. Hona hemen lau nagusiak.

1. Gobernantza Idatzia

Datu-multzoek "datu gobernantza eta kudeaketa egokia" jarraitu behar dute. Bilketa, kalitate egiaztapena eta jarraipen ikuskapen urrats idatziak behar dituzu.

2. Alborapen Probak

Erregistroak emaitza desorekatuak sor ditzaketen "alborapen posibleen" bila egiaztatu behar dira. Proba aktiboa beharrezkoa da. Nahita alborapena saihestea ez da nahikoa.

3. Zehaztasuna eta Estaldura

Datu-multzoek "garrantzitsuak, nahikoa ordezkagarriak eta akatsetatik gabeak" izan behar dute. Talde batzuk galtzen dituzten web bilaketek proba hau gainditu ez dezakete.

4. Erregistro Mota Bereziak

10(5). Artikulua da araurik zuzenena. Arrisku altuko sistema batek erregistro mota bereziak erabiltzen dituenean -- osasuna, arraza, erlijioa, politika, biometrika -- "erabat beharrezkoa" denean bakarrik prozesa ditzakezu alborapen egiaztatzetarako. "Babes neurri egokiak" ere aplikatu behar dituzu. Datu garbiketa erabil dezakezun babes neurri sendo bat da.

Ondorioa: AI modelo datu-multzo gehienek erregistro pertsonalak gordetzen dituzte. 10. Artikuluak dio behar dena bakarrik erabili, babes tekniko sendoekin.

Ikusi gure legezkotasun betetze orria eta segurtasun ikuspegi orokorra xehetasunetarako.

Isun Mailak

EBko AI Legediak hiru isun maila ditu. Denak GDPR baino altuagoak dira hauste mota berarekin:

AraudiaIsun GehienaFakturazio Muga
GDPR20 milioi euroMundu mailako fakturazioren %4
EBko AI Legedia (arrisku altua)15 milioi euroMundu mailako fakturazioren %3
EBko AI Legedia (debekatua)35 milioi euroMundu mailako fakturazioren %7

Datu-multzo hausturak arrisku altuko mailan kokatzen dira (15M euro / %3). Arautzaile batek babes-neurririk gabe erregistro pertsonalak erabiltzea ekintza debekatua dela aurkitzen badu, maila gorena aplikatzen da.

Benetako adibideak: 500 milioi euroko fakturazioaren %3 = 15 milioi euro. 5.000 milioi euroko fakturazioaren %3 = 150 milioi euro. Hauek benetako zenbakiak dira, ez teoria.

Zergatik Garbiketa Hau Konpontzen Duen

Behar bezala garbitutako erregistroak GDPR esparrutik kanpo gelditzen dira. Honek 10. Artikuluko karga gehiena kentzen du.

Arau gogorrak -- erregistro mota berezi kudeaketa, alborapen egiaztapenak, datu subjektuen eskubideak -- datu-multzoak erregistro pertsonalak dituenean soilik aplikatzen dira. Kendu erregistro horiek lehenik. Karga gehiena desagertzen da.

CNILek (Frantziako datu agintaritzak) hau argi egin zuen 2026 hasieran. Bere AI gidalerroak hau dio: modelo errendimenduarako behar ez diren erregistro pertsonalen datu garbiketa 10. Artikulurako neurri tekniko nagusia da.

Hau ez da ikusmolde marjinal bat. EBko arrisku arautzaile nagusiaren puntu nagusia da.

Zer Esan Nahi Duen Datu Garbiketak Praktikan

AI modelo datu-multzoak garbitzea ez da berdina bezeroaren erregistro aktiboak garbitzearen. Modelo datu-multzoak eduki dezakete:

  • PII duten dokumentuak -- kontratuak, emailak, txostenak, laguntza txartelak
  • Erregistro egituratuak -- eredu iragarkorrak eraikitzeko erabilitako bezero taulak
  • Etiketatutako edukia -- erregistro pertsonalak dituzten oharrak dituzten irudiak edo testua
  • Erregistro sintetikoak -- sorkuntzak eredu pertsonalak gorde ditzake oraindik

PII detektatu behar duzu formatu guztietan. Mota bat galtzeak datu-multzo osoa agerian uzten du. Izenak kendutako baina helbide osoak oraindik zituen kontratua bat kokapena datu demografikoekin lotzen ikasten duen modelo bat eratzen lagunduko du.

anonym.legal APIak AI datu-multzo handietarako batch prozesatzea kudeatzen du. 285+ entitate mota detektatzen ditu 48 hizkuntzatan. Hizkuntza anitzeko datu-multzoak dituzten Europako AI enpresenrako, hizkuntzen arteko estaldura kritikoa da. Hizkuntza bateko hutsune batek AI Legediaren arrisku osoa sortzen du sistema osoan.

Entitate detekzioari buruz gehiago jakiteko, ikusi token sistema gida eta entitate mota erreferentzia.

Urrats Praktikoak: Zure Datu-Multzoa Garbitu

1. Urratsa: Lehenik ikuskaritu

Detekzio pasada bat egin garbitu aurretik. Honek zein PII dagoen esaten dizu:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer ZURE_API_GAKOA" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Erantzunak detektatutako entitate bakoitza zerrendatzen du bere motan, posizioan eta puntuazioan. Hau zure fitxategi guztietan exekutatu hasi baino lehenagoko esparru osoa ikusteko.

2. Urratsa: Batch garbiketa

Datu-multzo handietarako, erabili batch endpoint fitxategi asko aldi berean prozesatzeko:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Eginda: {result['id']} -- {len(result['items'])} entitate kendu dira")

3. Urratsa: Erregistroak gorde

  1. Artikuluak egin duzunaren erregistro idatziak eskatzen ditu. Datu-multzo bakoitzarentzat, gorde:
  • Erabilitako detekzio eredua eta bertsioa
  • Zein entitate mota aurkitu ziren eta nola ordezkatu zen bakoitza
  • Datu-multzo bakoitzean kendutako entitate kopuruak
  • Garbiketa data eta erabilitako datu-multzo bertsioa

Honek 10(2)(a). Artikuluko "datu gobernantza eta kudeaketa praktikak" eskakizuna betetzen du.

Ohiko Galderak

Garbiketak modelo kalitatea apurtzen du?

Kasu gehienetan, ez. Modeloak testuaren egitura ereduetatik ikasten du, ez datu pertsonaletatik. Izenak, telefono-zenbakiak eta helbideak [IZENA] edo [TELEFONOA] bezalako leku-hartzaileekin ordezkatu daitezke eta modeloak eredu berdinak ikasten jarraitzen du. Ikerketa talde askok ikusi dute garbitutako datu-multzoek kalitate berdineko modeloak ekoizten dituztela. Gakoa da leku-hartzaile koherenteak erabiltzea modeloak eredu argia ikus dezan.

Nire datu-multzoa oso handia bada?

Erabili batch APIa. Bolumen handiak paraleloan kudeatzen ditu. Prezioen orriak bolumen handiko erabilera kasurako planak erakusten ditu. Talde askok hilero milioi erregistro prozesatzen ditu.

Ingelesez ez diren datu-multzoen kasuan?

APIak 48 hizkuntza onartzen ditu. Hizkuntza bakoitzak hizkuntza horretan entrenatutako detekzio modelo bat erabiltzen du. Honek alemana, frantsesa, gaztelania, japoniera eta beste hizkuntza guztiak estaltzen direla esan nahi du. Ikusi FAQ hizkuntza zerrenda osoa. Hizkuntza mistoko datu-multzoak ere onartzen dira -- batch eskaeran dokumentu bakoitzeko hizkuntza zehaztu dezakezu.

Colorado AI Legedia: Bi Epemuga

Coloradoko AI Legedia 2026ko ekainaren 30ean indarrean sartzen da -- EBko epemuga baino bost aste lehenago. Estatuko legearen araupeko "arrisku altuko AI sistemak" antzeko arauak ezartzen ditu. Arreta nagusia alborapena eta diskriminazioa da.

EB eta Colorado bietan lan egiten duten taldeek aldi berean bi epemuga dituzte. Zure datu-multzoak garbitzeak bi legeak betetzen laguntzen du: 10. Artikulua (EB) eta Coloradoko alborapen aurkako arauak. Urrats teknikoak berdinak dira.

Ekitu Orain

Bost hilabete nahikoa da -- gaur hasten bazara. Ez da nahikoa ekainera arte itxaroten baduzu.

Egutegi praktikoa:

  1. 1-2. Asteak: Ikuskatu zure datu-multzoak -- aurkitu zein erregistro pertsonal dauden
  2. 3-6. Asteak: Eraiki eta probatu zure garbiketa kanalizazioa
  3. 7-10. Asteak: Idatzi zure gobernantza erregistroak; lortu legearen ikuspegi orokorra
  4. 11-16. Asteak: Balioztatu -- berretsi garbitutako datu-multzoak 10. Artikuluko kalitate arauak betetzen dituztela
  5. Abuztuaren 2: Betearazpen data -- betetze praktikak martxan

anonym.legal APIa zure egungo kanalizazioan txertatzen da aldaketa handiak gabe. Egiaztatu prezioak bolumen planetarako. FAQ-k ohiko 10. Artikuluko galderak barne hartzen ditu.

Erabili GDPR betetze zerrenda GDPR eta 10. Artikuluaren artean gainjartzen diren erregistroetarako.

EBko AI Legedia betearazteko prest dago. Zure erakundea abuztuaren 2rako prest egongo da?

Hasi GDPR betetze zerrendararekin

Mugak eta Galdera Irekiak

AI Legediaren arauentzako datu garbiketa oraindik garatzen ari da. Hona hemen hutsune nagusiak.

Atariak ez daude definituta. EBko AI Legediak ez du esaten zein garbiketa maila den "nahikoa." Europako AI Bulegoak gidalerroak igortzen dituen arte, arrisku juridikoa duzu. Agian ez dakizu zure metodoak arautzaileak asetuko dituen.

Berreridentifikazio arriskuak irauten du. Ikerketak erakutsi du hizkuntza-modelo handiek beren datu-multzetako edukia memorizatu eta errepikatzen dutela. Modelo garapenaren aurretiko garbiketa estandarrak gainditu zituzten erregistroak oraindik erauzgarri izan daitezke. Garapena baino lehenagoko garbiketa ez da arazo hau guztiz konpontzen.

Erregistro sintetikoek mugak dituzte. Sintesi sorkuntza eredu estatistikoak mantentzen ditu baina alborapen sotilak gehitu edo ertz kasu arraroak galdu ditzake. Eduki sintetikoan soilik oinarritutako modeloak sarrera errealetan gaizki funtzionatu dezakete.

10. Artikulua oraindik interpretatzen ari da. "Neurri tekniko egokiak" esaldiak interpretazioa behar du. EB kide-estatuetako DPAen lehen lanek estandar argietan oraindik ez dute adostasunik. Begiratu EDPB gidalerroak eta kide-estatuen erabakiak 2026 zehar.

Iturriak

  • EBko AI Legedia, (EU) 2024/1689 Araudia, 9-17. Artikuluak (arrisku altuko AI betebeharrak), OJ L 2024/1689
  • EBko AI Legedia, 10. Artikulua -- Datuak eta datuen gobernantza
  • CNIL AI datu-multzo gidalerroak, 2026ko urtarrila
  • Colorado AI Legedia, SB 205, 2026ko ekainaren 30ean indarrean
  • EBko AI Legedia denbora-lerroa: ekintza debekatuak 2025eko otsailaren 2a; arrisku altuko sistemak 2026ko abuztuaren 2a

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.