Il conto alla rovescia è iniziato
Aggiornato per il 2026
La scadenza dell'EU AI Act è reale. Le regole dell'Articolo 10 si applicano dal 2 agosto 2026. Se il tuo team sviluppa o gestisce un sistema IA ad alto rischio, agisci ora. Il tempo è poco.
Le sanzioni superano quelle del GDPR. La sanzione massima è €35 milioni o 7% del fatturato annuo globale. Il GDPR si ferma a €20 milioni o 4%. Nessun'altra legge sull'IA prevede sanzioni più elevate.
Quali sistemi IA sono ad alto rischio?
L'AI Act classifica i sistemi in base al rischio. I sistemi ad alto rischio (Allegato III) comprendono l'IA utilizzata in:
- Istruzione — accesso scolastico o valutazione degli studenti
- Lavoro — screening di curriculum, valutazione dei colloqui, monitoraggio dei lavoratori
- Servizi essenziali — scoring creditizio, tariffazione assicurativa, gestione delle emergenze
- Forze dell'ordine — previsione dei reati, identificazione biometrica
- Sanità — software per dispositivi medici, triage pazienti
- Infrastrutture — gestione di energia, acqua o trasporti
- Giustizia — strumenti di ricerca legale, strumenti per le sentenze
Operi in uno di questi settori? L'Articolo 10 si applica a te.
Articolo 10: quattro regole chiave
L'Articolo 10 stabilisce regole per i dataset utilizzati dai sistemi IA ad alto rischio. Ecco le quattro principali.
1. Governance documentata
I dataset devono seguire "pratiche appropriate di governance e gestione dei dati". Sono necessarie procedure scritte per la raccolta, i controlli di qualità e la revisione continua.
2. Test sui bias
I dati devono essere verificati per "possibili bias" che potrebbero causare output iniqui. È richiesto un test attivo. Evitare bias intenzionali non è sufficiente.
3. Accuratezza e copertura
I dataset devono essere "pertinenti, sufficientemente rappresentativi e privi di errori". Le raccolte web che mancano di determinati gruppi possono non superare questo test.
4. Tipi di dati speciali
L'Articolo 10(5) è la regola più diretta. Quando un sistema ad alto rischio utilizza categorie speciali di dati — salute, razza, religione, politica, biometria — è possibile elaborarli solo quando "strettamente necessario" per i controlli sui bias. È necessario applicare anche "adeguate garanzie". La pulizia dei dati è una delle garanzie più solide che si possono adottare.
In sintesi: la maggior parte dei dataset dei modelli IA contiene dati personali. L'Articolo 10 dice di usare il minimo necessario, con solide garanzie tecniche.
Consulta la nostra pagina sulla conformità legale e la panoramica sulla sicurezza per i dettagli.
Livelli di sanzione
L'EU AI Act prevede tre livelli di sanzione. Tutti superano il GDPR per lo stesso tipo di violazione:
| Normativa | Sanzione massima | Cap sul fatturato |
|---|---|---|
| GDPR | €20 milioni | 4% fatturato globale |
| EU AI Act (alto rischio) | €15 milioni | 3% fatturato globale |
| EU AI Act (vietato) | €35 milioni | 7% fatturato globale |
Le violazioni sui dataset rientrano nel livello ad alto rischio (€15M / 3%). Se un regolatore constata che l'uso di dati personali senza garanzie costituisce un atto vietato, si applica il livello massimo.
Esempi reali: €500M di fatturato al 3% = €15M di sanzione. €5 miliardi di fatturato al 3% = €150M di sanzione. Sono cifre reali, non teoria.
Perché la pulizia dei dati risolve il problema
I dati correttamente puliti esulano dall'ambito del GDPR. Ciò elimina la maggior parte degli obblighi dell'Articolo 10.
Le regole più rigide — gestione delle categorie speciali, controlli sui bias, diritti degli interessati — si applicano solo quando un dataset contiene dati personali. Rimuovere quei dati prima. L'onere si riduce sostanzialmente.
La CNIL (autorità francese per la protezione dei dati) ha chiarito questo punto all'inizio del 2026. La sua guida sull'IA afferma: la pulizia dei dati personali non necessari per le prestazioni del modello è la principale misura tecnica per l'Articolo 10.
Non è una posizione marginale. È la posizione mainstream del principale regolatore europeo sull'IA.
Cosa significa la pulizia dei dati nella pratica
Pulire i dataset dei modelli IA non è come pulire i dati di produzione in tempo reale. I dataset dei modelli possono contenere:
- Documenti con dati personali — contratti, email, report, ticket di supporto
- Dati strutturati — tabelle clienti usate per costruire modelli predittivi
- Contenuti etichettati — immagini o testi con annotazioni che includono dati personali
- Dati sintetici — dove la generazione può preservare comunque pattern personali
È necessario rilevare i dati personali in tutti questi formati. Mancarne uno tipo espone l'intero dataset. Un contratto con i nomi rimossi ma gli indirizzi completi ancora intatti insegnerà a un modello a collegare la posizione a schemi demografici.
L'API di anonym.legal gestisce l'elaborazione batch per grandi dataset IA. Rileva 285+ tipi di entità in 48 lingue. Per le aziende IA europee con dataset multilingue, la copertura cross-linguistica è fondamentale. Una lacuna in una lingua crea rischi ai sensi dell'EU AI Act per l'intero sistema.
Per ulteriori informazioni sul rilevamento delle entità, consulta la guida al sistema di token e il riferimento ai tipi di entità.
Passaggi pratici: pulire il proprio dataset
Passaggio 1: prima l'audit
Eseguire un passaggio di rilevamento prima di pulire qualsiasi cosa. Questo dice quali dati personali sono presenti:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
La risposta elenca ogni entità rilevata con il suo tipo, posizione e punteggio. Eseguire questo su tutti i file per vedere la portata completa prima di iniziare.
Passaggio 2: pulizia batch
Per grandi dataset, usare l'endpoint batch per elaborare molti file contemporaneamente:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Completato: {result['id']} — {len(result['items'])} entità rimosse")
Passaggio 3: tenere i registri
L'Articolo 10 richiede registrazioni scritte di ciò che è stato fatto. Per ogni dataset, conservare:
- Il modello di rilevamento e la versione utilizzata
- Quali tipi di entità sono stati trovati e come ciascuno è stato sostituito
- Conteggi delle entità rimosse per dataset
- La data della pulizia e la versione del dataset utilizzata
Questo soddisfa il requisito di "pratiche di governance e gestione dei dati" nell'Articolo 10(2)(a).
Domande frequenti
La pulizia compromette la qualità del modello?
Nella maggior parte dei casi, no. Il modello apprende i pattern dalla struttura del testo, non dai dettagli personali. Nomi, numeri di telefono e indirizzi possono essere sostituiti con segnaposto come [NOME] o [TELEFONO] e il modello apprende comunque gli stessi pattern. Molti team di ricerca hanno riscontrato che i dataset puliti producono modelli di qualità equivalente. La chiave è usare segnaposto coerenti in modo che il modello veda un pattern chiaro.
E se il mio dataset è molto grande?
Usare l'API batch. Gestisce grandi volumi in parallelo. La pagina dei prezzi mostra i piani per i casi d'uso ad alto volume. Molti team elaborano milioni di record al mese.
E per i dataset non in lingua inglese?
L'API supporta 48 lingue. Ogni lingua utilizza un modello di rilevamento addestrato su quella lingua. Ciò significa che tedesco, francese, spagnolo, giapponese e molte altre lingue sono tutte coperte. Consulta le FAQ per un elenco completo delle lingue. I dataset in più lingue sono supportati — è possibile specificare la lingua per documento nella richiesta batch.
Colorado AI Act: due scadenze
Il Colorado AI Act entra in vigore il 30 giugno 2026 — cinque settimane prima della scadenza europea. Stabilisce regole simili per i "sistemi IA ad alto rischio" ai sensi della legge statale. L'attenzione principale è sui bias e la discriminazione.
I team sia nell'UE che in Colorado affrontano due scadenze contemporaneamente. Pulire i propri dataset aiuta a rispettare entrambe le leggi: l'Articolo 10 (UE) e le regole anti-bias del Colorado. I passaggi tecnici sono gli stessi.
Agire ora
Cinque mesi sono sufficienti — se si inizia oggi. Non lo sono se si aspetta fino a giugno.
Una timeline pratica:
- Settimane 1–2: Verificare i propri dataset — scoprire quali dati personali sono presenti
- Settimane 3–6: Costruire e testare la propria pipeline di pulizia
- Settimane 7–10: Redigere i documenti di governance; ottenere una revisione legale
- Settimane 11–16: Validare — confermare che i dataset puliti rispettino le regole di qualità dell'Articolo 10
- 2 agosto: Data di applicazione — pratiche conformi in vigore
L'API di anonym.legal si integra nella pipeline attuale senza grandi modifiche. Consulta i prezzi per i piani a volume. Le FAQ coprono le domande comuni sull'Articolo 10.
Usa la checklist di conformità GDPR per i dati che si sovrappongono tra GDPR e Articolo 10.
L'EU AI Act è pronto per l'applicazione. La tua organizzazione sarà pronta entro il 2 agosto?
Inizia con la checklist di conformità GDPR →
Limiti e questioni aperte
La pulizia dei dati per le regole dell'AI Act è ancora in evoluzione. Ecco le principali lacune.
Le soglie non sono definite. L'EU AI Act non specifica quale livello di pulizia sia "sufficiente". Finché l'Ufficio europeo per l'IA non emette orientamenti, si affronta un rischio legale. Potrebbe non essere chiaro se il proprio metodo soddisferà i regolatori.
Il rischio di re-identificazione persiste. La ricerca mostra che i grandi modelli linguistici possono memorizzare e riprodurre contenuti dai loro dataset. I dati che hanno superato gli standard di pulizia prima dello sviluppo del modello potrebbero ancora essere estraibili. La pulizia prima dello sviluppo non risolve completamente il problema.
I dati sintetici hanno limiti. La generazione sintetica mantiene i pattern statistici ma può aggiungere bias sottili o perdere casi limite rari. I modelli costruiti solo su contenuto sintetico potrebbero avere prestazioni scarse su input reali.
L'Articolo 10 è ancora in corso di interpretazione. La locuzione "misure tecniche appropriate" necessita di interpretazione. Il lavoro iniziale dei DPA nei vari Stati membri dell'UE non ha ancora definito standard chiari. Monitorare gli orientamenti dell'EDPB e le decisioni degli Stati membri durante tutto il 2026.
Fonti
- EU AI Act, Regolamento (UE) 2024/1689, Articoli 9–17 (obblighi IA ad alto rischio), GU L 2024/1689
- EU AI Act, Articolo 10 — Dati e governance dei dati
- Guida CNIL sui dataset IA, gennaio 2026
- Colorado AI Act, SB 205, efficace dal 30 giugno 2026
- Timeline EU AI Act: pratiche vietate dal 2 febbraio 2025; sistemi ad alto rischio dal 2 agosto 2026