Tornar al BlogGDPR i Compliment

Llei d'IA de la UE agost del 2026: anonimitzar les dades d'entrenament per complir l'article 10

L'aplicacio completa de la Llei d'IA de la UE comenca el 2 d'agost del 2026. Sancions de fins a 35 milions d'euros o el 7% de la facturacio global. L'article 10 exigeix l'anonimitzacio de les dades d'entrenament.

March 16, 2026article.updated: June 14, 20269 min llegit
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

El compte enrere ha comencat

Actualitzat per al 2026

El termini de la Llei d'IA de la UE es real. Les normes de l'article 10 s'apliquen a partir del 2 d'agost del 2026. Si el vostre equip construeix o opera un sistema d'IA d'alt risc, actueu ara. El temps es curt.

Les sancions son mes altes que les del RGPD. La sancio maxima es de 35 milions d'euros o el 7% de la facturacio anual global. El RGPD limita a 20 milions d'euros o el 4%. Cap altra llei d'IA te sancions mes altes.

Quins sistemes d'IA son d'alt risc?

La Llei d'IA classifica els sistemes per risc. Els sistemes d'alt risc (Annex III) cobreixen la IA utilitzada en:

  • Educacio - acces escolar o puntuacio d'estudiants
  • Treball - cribratge de CV, puntuacio d'entrevistes, monitoratge de treballadors
  • Serveis clau - puntuacio de credit, preus d'assegurances, despachos d'emergencia
  • Aplicacio de la llei - prediccio de delictes, identificacio biometrica
  • Salut - programari de dispositius medics, triatge de pacients
  • Infraestructura - gestio d'energia, aigua o transport
  • Justicia - eines d'investigacio legal, eines de sentencies

Treballeu en algun d'aquests ambits? L'article 10 s'aplica a vosaltres.

Article 10: quatre normes clau

L'article 10 estableix normes per als conjunts de dades utilitzats pels sistemes d'IA d'alt risc. Aquí en teniu les quatre principals.

1. Govern escrit

Els conjunts de dades han de seguir "practiques adequades de govern i gestio de dades". Necessiteu passos escrits per a la recopilacio, les verificacions de qualitat i la revisio continua.

2. Proves de biaix

Els registres han de ser revisats per detectar "possibles biaixos" que puguin causar sortides injustes. Es requereix una prova activa. Evitar el biaix intencional no es suficient.

3. Precisio i cobertura

Els conjunts de dades han de ser "rellevants, suficientment representatius i lliures d'errors". Les extraccions web que no inclouen certs grups poden no superar aquesta prova.

4. Tipus especials de registres

L'article 10(5) es la norma mes directa. Quan un sistema d'alt risc utilitza registres de categories especials (salut, rac, religio, politica, biometria), nomes podeu processar-los quan sigui "estrictament necessari" per a les verificacions de biaix. Tambe heu d'aplicar "salvaguardes adequades". L'eliminacio de dades es una de les salvaguardes mes solides que podeu utilitzar.

La conclusio: la majoria dels conjunts de dades de models d'IA contenen registres personals. L'article 10 diu que feu servir el minim necessari, amb salvaguardes tecniques solides.

Vegeu la nostra pagina de compliment legal i la visio general de seguretat per a mes detalls.

Nivells de sancio

La Llei d'IA de la UE te tres nivells de sancio. Tots superen el RGPD per al mateix tipus d'infraccio:

RegulacioSancio maximaLimit de facturacio
RGPD20 milions d'euros4% de la facturacio global
Llei d'IA de la UE (alt risc)15 milions d'euros3% de la facturacio global
Llei d'IA de la UE (prohibit)35 milions d'euros7% de la facturacio global

Les infraccions dels conjunts de dades cauen en el nivell d'alt risc (15 M/3%). Si un regulador conclou que usar registres personals sense salvaguardes es un acte prohibit, s'aplica el nivell superior.

Exemples reals: 500 milions d'euros de facturacio al 3% = 15 milions d'euros de sancio. 5.000 milions d'euros de facturacio al 3% = 150 milions d'euros de sancio. Aquestes son xifres reals, no teoria.

Per que l'eliminacio de dades soluciona aixo

Els registres correctament eliminats queden fora de l'ambit del RGPD. Aixo elimina la major part de la carrega de l'article 10.

Les normes estrictes (tractament de categories especials, verificacions de biaix, drets dels interessats) nomes s'apliquen quan un conjunt de dades conte registres personals. Elimineu primer aquests registres. La carrega desapareix en gran mesura.

La CNIL (autoritat de dades francesa) ho va deixar clar a principis del 2026. La seva guia sobre IA diu aixo: l'eliminacio de dades de registres personals que no son necessaris per al rendiment del model es la mesura tecnica principal per a l'article 10.

Aixo no es una visio marginal. Es la posicio principal del regulador d'IA principal de la UE.

Que significa l'eliminacio de dades a la practica

L'eliminacio de dades dels conjunts de dades dels models d'IA no es el mateix que l'eliminacio dels registres de produccio en viu. Els conjunts de dades de models poden contenir:

  • Documents amb dades personals - contractes, correus electronics, informes, tiquets de suport
  • Registres estructurats - taules de clients utilitzades per construir models predictius
  • Contingut etiquetat - imatges o text amb notes que inclouen dades personals
  • Registres sinteticos - on la generacio pot preservar encara patrons personals

Heu de detectar les dades personals en tots aquests formats. Perdre'n un tipus exposa tot el conjunt de dades. Un contracte amb noms eliminats pero adreces completes intactes ensenyara a un model a vincular la ubicacio amb els patrons demografics.

L'API d'anonym.legal gestiona el processament per lots per a grans conjunts de dades d'IA. Detecta mes de 285 tipus d'entitat en 48 idiomes. Per a les empreses europees d'IA amb conjunts de dades multilingues, la cobertura translingüistica es critica. Un buit en un idioma crea risc de la Llei d'IA de la UE en tot el sistema.

Per a mes informacio sobre la deteccio d'entitats, vegeu la guia del sistema de tokens i la referencia de tipus d'entitat.

Passos practics: eliminacio de les dades del vostre conjunt de dades

Pas 1: auditeu primer

Executeu una passada de deteccio abans d'eliminar res. Aixo us indica quines dades personals hi son presents:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer LA_VOSTRA_CLAU_API" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

La resposta llista cada entitat detectada amb el seu tipus, posicio i puntuacio. Executeu aixo a tots els vostres fitxers per veure l'abast complet abans de comenar.

Pas 2: eliminacio per lots

Per a conjunts de dades grans, utilitzeu l'endpoint per lots per processar molts fitxers alhora:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Fet: {result['id']} - {len(result['items'])} entitats eliminades")

Pas 3: conserveu els registres

L'article 10 requereix registres escrits del que heu fet. Per a cada conjunt de dades, conserveu:

  • El model de deteccio i la versio utilitzada
  • Quins tipus d'entitat es van trobar i com es va substituir cadascun
  • Recompte d'entitats eliminades per conjunt de dades
  • La data d'eliminacio i la versio del conjunt de dades utilitzada

Aixo compleix el requisit de "practiques de govern i gestio de dades" de l'article 10(2)(a).

Preguntes habituals

L'eliminacio afecta la qualitat del model?

En la majoria dels casos, no. El model aprен patrons de l'estructura del text, no dels detalls personals. Els noms, els numeros de telefon i les adreces es poden substituir per marcadors de posicio com [NAME] o [PHONE] i el model segueix aprenent els mateixos patrons. Molts equips d'investigacio han descobert que els conjunts de dades eliminats produeixen models de qualitat equivalent. La clau es fer servir marcadors de posicio consistents perque el model vegi un patro clar.

I si el meu conjunt de dades es molt gran?

Feu servir l'API per lots. Gestiona grans volums en paral.lel. La pagina de preus mostra els plans per als casos d'us d'alt volum. Molts equips processen milions de registres al mes.

I els conjunts de dades en idiomes que no son l'angles?

L'API admet 48 idiomes. Cada idioma utilitza un model de deteccio entrenat en aquell idioma. Aixo significa que l'alemany, el frances, l'espanyol, el japones i altres estan tots coberts. Vegeu les Preguntes frequents per a una llista completa d'idiomes. Els conjunts de dades en varios idiomes tambe son compatibles: podeu especificar l'idioma per document a la sol.licitud per lots.

Llei d'IA de Colorado: dos terminis

La Llei d'IA de Colorado entra en vigor el 30 de juny del 2026, cinc setmanes abans del termini de la UE. Estableix normes similars per als "sistemes d'IA d'alt risc" sota la llei estatal. El focus principal es el biaix i la discriminacio.

Els equips tant de la UE com de Colorado s'enfronten a dos terminis alhora. Eliminar les dades dels vostres conjunts de dades ajuda a complir totes dues lleis: l'article 10 (UE) i les normes antibiaix de Colorado. Els passos tecnics son els mateixos.

Actueu ara

Cinc mesos es temps suficient, si comenceu avui. No es suficient si espereu fins al juny.

Un calendari practic:

  1. Setmanes 1-2: Auditeu els vostres conjunts de dades: esbringueu quins registres personals hi son presents
  2. Setmanes 3-6: Construiu i proveu el vostre pipeline d'eliminacio
  3. Setmanes 7-10: Redacteu els vostres registres de govern; obteniu revisio legal
  4. Setmanes 11-16: Valideu: confirmeu que els conjunts de dades eliminats compleixen les normes de qualitat de l'article 10
  5. 2 d'agost: Data d'aplicacio: practiques de compliment en vigor

L'API d'anonym.legal s'integra al vostre pipeline actual sense grans canvis. Consulteu els preus per als plans de volum. Les Preguntes frequents cobreixen les preguntes habituals de l'article 10.

Feu servir la llista de verificacio de compliment del RGPD per als registres que es superposen entre el RGPD i l'article 10.

La Llei d'IA de la UE esta preparada per aplicar-se. La vostra organitzacio estara preparada per al 2 d'agost?

Comenca amb la llista de verificacio de compliment del RGPD

Limits i preguntes obertes

L'eliminacio de dades per a les normes de la Llei d'IA esta evolucionant. Aquí hi ha els buits clau.

Els llindars no estan definits. La Llei d'IA de la UE no diu quin nivell d'eliminacio es "suficient". Fins que l'Oficina Europea d'IA emeti orientacio, us enfronteu a risc legal. Pot ser que no sapigueu si el vostre metode satisfara els reguladors.

El risc de re-identificacio persisteix. La investigacio mostra que els models de llenguatge grans poden memoritzar i reproduir contingut dels seus conjunts de dades. Els registres que van superar els estandards d'eliminacio abans del desenvolupament del model poden continuar sent extreibles. L'eliminacio abans del desenvolupament no soluciona completament aixo.

Els registres sinteticos tenen limits. La generacio sintetica manté els patrons estadistics pero pot afegir biaixos subtils o perdre casos extrems rars. Els models construits nomes amb contingut sintetic pot ser que no tinguin un bon rendiment amb entrades reals.

L'article 10 encara s'esta interpretant. La frase "mesures tecniques adequades" necessita interpretacio. El treball previ de les APD dels estats membres de la UE no ha establert estandards clars. Estigueu atents a les orientacions del CEPD i les decisions dels estats membres durant tot el 2026.

Fonts

  • Llei d'IA de la UE, Reglament (UE) 2024/1689, articles 9-17 (obligacions d'IA d'alt risc), DO L 2024/1689
  • Llei d'IA de la UE, article 10 - Dades i govern de dades
  • Orientacio sobre conjunts de dades d'IA de la CNIL, gener del 2026
  • Llei d'IA de Colorado, SB 205, vigent el 30 de juny del 2026
  • Calendari de la Llei d'IA de la UE: practiques prohibides el 2 de febrer del 2025; sistemes d'alt risc el 2 d'agost del 2026

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.