El compte enrere ha comencat
Actualitzat per al 2026
El termini de la Llei d'IA de la UE es real. Les normes de l'article 10 s'apliquen a partir del 2 d'agost del 2026. Si el vostre equip construeix o opera un sistema d'IA d'alt risc, actueu ara. El temps es curt.
Les sancions son mes altes que les del RGPD. La sancio maxima es de 35 milions d'euros o el 7% de la facturacio anual global. El RGPD limita a 20 milions d'euros o el 4%. Cap altra llei d'IA te sancions mes altes.
Quins sistemes d'IA son d'alt risc?
La Llei d'IA classifica els sistemes per risc. Els sistemes d'alt risc (Annex III) cobreixen la IA utilitzada en:
- Educacio - acces escolar o puntuacio d'estudiants
- Treball - cribratge de CV, puntuacio d'entrevistes, monitoratge de treballadors
- Serveis clau - puntuacio de credit, preus d'assegurances, despachos d'emergencia
- Aplicacio de la llei - prediccio de delictes, identificacio biometrica
- Salut - programari de dispositius medics, triatge de pacients
- Infraestructura - gestio d'energia, aigua o transport
- Justicia - eines d'investigacio legal, eines de sentencies
Treballeu en algun d'aquests ambits? L'article 10 s'aplica a vosaltres.
Article 10: quatre normes clau
L'article 10 estableix normes per als conjunts de dades utilitzats pels sistemes d'IA d'alt risc. Aquí en teniu les quatre principals.
1. Govern escrit
Els conjunts de dades han de seguir "practiques adequades de govern i gestio de dades". Necessiteu passos escrits per a la recopilacio, les verificacions de qualitat i la revisio continua.
2. Proves de biaix
Els registres han de ser revisats per detectar "possibles biaixos" que puguin causar sortides injustes. Es requereix una prova activa. Evitar el biaix intencional no es suficient.
3. Precisio i cobertura
Els conjunts de dades han de ser "rellevants, suficientment representatius i lliures d'errors". Les extraccions web que no inclouen certs grups poden no superar aquesta prova.
4. Tipus especials de registres
L'article 10(5) es la norma mes directa. Quan un sistema d'alt risc utilitza registres de categories especials (salut, rac, religio, politica, biometria), nomes podeu processar-los quan sigui "estrictament necessari" per a les verificacions de biaix. Tambe heu d'aplicar "salvaguardes adequades". L'eliminacio de dades es una de les salvaguardes mes solides que podeu utilitzar.
La conclusio: la majoria dels conjunts de dades de models d'IA contenen registres personals. L'article 10 diu que feu servir el minim necessari, amb salvaguardes tecniques solides.
Vegeu la nostra pagina de compliment legal i la visio general de seguretat per a mes detalls.
Nivells de sancio
La Llei d'IA de la UE te tres nivells de sancio. Tots superen el RGPD per al mateix tipus d'infraccio:
| Regulacio | Sancio maxima | Limit de facturacio |
|---|---|---|
| RGPD | 20 milions d'euros | 4% de la facturacio global |
| Llei d'IA de la UE (alt risc) | 15 milions d'euros | 3% de la facturacio global |
| Llei d'IA de la UE (prohibit) | 35 milions d'euros | 7% de la facturacio global |
Les infraccions dels conjunts de dades cauen en el nivell d'alt risc (15 M/3%). Si un regulador conclou que usar registres personals sense salvaguardes es un acte prohibit, s'aplica el nivell superior.
Exemples reals: 500 milions d'euros de facturacio al 3% = 15 milions d'euros de sancio. 5.000 milions d'euros de facturacio al 3% = 150 milions d'euros de sancio. Aquestes son xifres reals, no teoria.
Per que l'eliminacio de dades soluciona aixo
Els registres correctament eliminats queden fora de l'ambit del RGPD. Aixo elimina la major part de la carrega de l'article 10.
Les normes estrictes (tractament de categories especials, verificacions de biaix, drets dels interessats) nomes s'apliquen quan un conjunt de dades conte registres personals. Elimineu primer aquests registres. La carrega desapareix en gran mesura.
La CNIL (autoritat de dades francesa) ho va deixar clar a principis del 2026. La seva guia sobre IA diu aixo: l'eliminacio de dades de registres personals que no son necessaris per al rendiment del model es la mesura tecnica principal per a l'article 10.
Aixo no es una visio marginal. Es la posicio principal del regulador d'IA principal de la UE.
Que significa l'eliminacio de dades a la practica
L'eliminacio de dades dels conjunts de dades dels models d'IA no es el mateix que l'eliminacio dels registres de produccio en viu. Els conjunts de dades de models poden contenir:
- Documents amb dades personals - contractes, correus electronics, informes, tiquets de suport
- Registres estructurats - taules de clients utilitzades per construir models predictius
- Contingut etiquetat - imatges o text amb notes que inclouen dades personals
- Registres sinteticos - on la generacio pot preservar encara patrons personals
Heu de detectar les dades personals en tots aquests formats. Perdre'n un tipus exposa tot el conjunt de dades. Un contracte amb noms eliminats pero adreces completes intactes ensenyara a un model a vincular la ubicacio amb els patrons demografics.
L'API d'anonym.legal gestiona el processament per lots per a grans conjunts de dades d'IA. Detecta mes de 285 tipus d'entitat en 48 idiomes. Per a les empreses europees d'IA amb conjunts de dades multilingues, la cobertura translingüistica es critica. Un buit en un idioma crea risc de la Llei d'IA de la UE en tot el sistema.
Per a mes informacio sobre la deteccio d'entitats, vegeu la guia del sistema de tokens i la referencia de tipus d'entitat.
Passos practics: eliminacio de les dades del vostre conjunt de dades
Pas 1: auditeu primer
Executeu una passada de deteccio abans d'eliminar res. Aixo us indica quines dades personals hi son presents:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer LA_VOSTRA_CLAU_API" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
La resposta llista cada entitat detectada amb el seu tipus, posicio i puntuacio. Executeu aixo a tots els vostres fitxers per veure l'abast complet abans de comenar.
Pas 2: eliminacio per lots
Per a conjunts de dades grans, utilitzeu l'endpoint per lots per processar molts fitxers alhora:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Fet: {result['id']} - {len(result['items'])} entitats eliminades")
Pas 3: conserveu els registres
L'article 10 requereix registres escrits del que heu fet. Per a cada conjunt de dades, conserveu:
- El model de deteccio i la versio utilitzada
- Quins tipus d'entitat es van trobar i com es va substituir cadascun
- Recompte d'entitats eliminades per conjunt de dades
- La data d'eliminacio i la versio del conjunt de dades utilitzada
Aixo compleix el requisit de "practiques de govern i gestio de dades" de l'article 10(2)(a).
Preguntes habituals
L'eliminacio afecta la qualitat del model?
En la majoria dels casos, no. El model aprен patrons de l'estructura del text, no dels detalls personals. Els noms, els numeros de telefon i les adreces es poden substituir per marcadors de posicio com [NAME] o [PHONE] i el model segueix aprenent els mateixos patrons. Molts equips d'investigacio han descobert que els conjunts de dades eliminats produeixen models de qualitat equivalent. La clau es fer servir marcadors de posicio consistents perque el model vegi un patro clar.
I si el meu conjunt de dades es molt gran?
Feu servir l'API per lots. Gestiona grans volums en paral.lel. La pagina de preus mostra els plans per als casos d'us d'alt volum. Molts equips processen milions de registres al mes.
I els conjunts de dades en idiomes que no son l'angles?
L'API admet 48 idiomes. Cada idioma utilitza un model de deteccio entrenat en aquell idioma. Aixo significa que l'alemany, el frances, l'espanyol, el japones i altres estan tots coberts. Vegeu les Preguntes frequents per a una llista completa d'idiomes. Els conjunts de dades en varios idiomes tambe son compatibles: podeu especificar l'idioma per document a la sol.licitud per lots.
Llei d'IA de Colorado: dos terminis
La Llei d'IA de Colorado entra en vigor el 30 de juny del 2026, cinc setmanes abans del termini de la UE. Estableix normes similars per als "sistemes d'IA d'alt risc" sota la llei estatal. El focus principal es el biaix i la discriminacio.
Els equips tant de la UE com de Colorado s'enfronten a dos terminis alhora. Eliminar les dades dels vostres conjunts de dades ajuda a complir totes dues lleis: l'article 10 (UE) i les normes antibiaix de Colorado. Els passos tecnics son els mateixos.
Actueu ara
Cinc mesos es temps suficient, si comenceu avui. No es suficient si espereu fins al juny.
Un calendari practic:
- Setmanes 1-2: Auditeu els vostres conjunts de dades: esbringueu quins registres personals hi son presents
- Setmanes 3-6: Construiu i proveu el vostre pipeline d'eliminacio
- Setmanes 7-10: Redacteu els vostres registres de govern; obteniu revisio legal
- Setmanes 11-16: Valideu: confirmeu que els conjunts de dades eliminats compleixen les normes de qualitat de l'article 10
- 2 d'agost: Data d'aplicacio: practiques de compliment en vigor
L'API d'anonym.legal s'integra al vostre pipeline actual sense grans canvis. Consulteu els preus per als plans de volum. Les Preguntes frequents cobreixen les preguntes habituals de l'article 10.
Feu servir la llista de verificacio de compliment del RGPD per als registres que es superposen entre el RGPD i l'article 10.
La Llei d'IA de la UE esta preparada per aplicar-se. La vostra organitzacio estara preparada per al 2 d'agost?
Comenca amb la llista de verificacio de compliment del RGPD
Limits i preguntes obertes
L'eliminacio de dades per a les normes de la Llei d'IA esta evolucionant. Aquí hi ha els buits clau.
Els llindars no estan definits. La Llei d'IA de la UE no diu quin nivell d'eliminacio es "suficient". Fins que l'Oficina Europea d'IA emeti orientacio, us enfronteu a risc legal. Pot ser que no sapigueu si el vostre metode satisfara els reguladors.
El risc de re-identificacio persisteix. La investigacio mostra que els models de llenguatge grans poden memoritzar i reproduir contingut dels seus conjunts de dades. Els registres que van superar els estandards d'eliminacio abans del desenvolupament del model poden continuar sent extreibles. L'eliminacio abans del desenvolupament no soluciona completament aixo.
Els registres sinteticos tenen limits. La generacio sintetica manté els patrons estadistics pero pot afegir biaixos subtils o perdre casos extrems rars. Els models construits nomes amb contingut sintetic pot ser que no tinguin un bon rendiment amb entrades reals.
L'article 10 encara s'esta interpretant. La frase "mesures tecniques adequades" necessita interpretacio. El treball previ de les APD dels estats membres de la UE no ha establert estandards clars. Estigueu atents a les orientacions del CEPD i les decisions dels estats membres durant tot el 2026.
Fonts
- Llei d'IA de la UE, Reglament (UE) 2024/1689, articles 9-17 (obligacions d'IA d'alt risc), DO L 2024/1689
- Llei d'IA de la UE, article 10 - Dades i govern de dades
- Orientacio sobre conjunts de dades d'IA de la CNIL, gener del 2026
- Llei d'IA de Colorado, SB 205, vigent el 30 de juny del 2026
- Calendari de la Llei d'IA de la UE: practiques prohibides el 2 de febrer del 2025; sistemes d'alt risc el 2 d'agost del 2026