Il conto alla rovescia è iniziato

Aggiornato per il 2026

La scadenza dell'EU AI Act è reale. Le regole dell'Articolo 10 si applicano dal 2 agosto 2026. Se il tuo team sviluppa o gestisce un sistema IA ad alto rischio, agisci ora. Il tempo è poco.

Le sanzioni superano quelle del GDPR. La sanzione massima è €35 milioni o 7% del fatturato annuo globale. Il GDPR si ferma a €20 milioni o 4%. Nessun'altra legge sull'IA prevede sanzioni più elevate.

Quali sistemi IA sono ad alto rischio?

L'AI Act classifica i sistemi in base al rischio. I sistemi ad alto rischio (Allegato III) comprendono l'IA utilizzata in:

Istruzione — accesso scolastico o valutazione degli studenti
Lavoro — screening di curriculum, valutazione dei colloqui, monitoraggio dei lavoratori
Servizi essenziali — scoring creditizio, tariffazione assicurativa, gestione delle emergenze
Forze dell'ordine — previsione dei reati, identificazione biometrica
Sanità — software per dispositivi medici, triage pazienti
Infrastrutture — gestione di energia, acqua o trasporti
Giustizia — strumenti di ricerca legale, strumenti per le sentenze

Operi in uno di questi settori? L'Articolo 10 si applica a te.

Articolo 10: quattro regole chiave

L'Articolo 10 stabilisce regole per i dataset utilizzati dai sistemi IA ad alto rischio. Ecco le quattro principali.

1. Governance documentata

I dataset devono seguire "pratiche appropriate di governance e gestione dei dati". Sono necessarie procedure scritte per la raccolta, i controlli di qualità e la revisione continua.

2. Test sui bias

I dati devono essere verificati per "possibili bias" che potrebbero causare output iniqui. È richiesto un test attivo. Evitare bias intenzionali non è sufficiente.

3. Accuratezza e copertura

I dataset devono essere "pertinenti, sufficientemente rappresentativi e privi di errori". Le raccolte web che mancano di determinati gruppi possono non superare questo test.

4. Tipi di dati speciali

L'Articolo 10(5) è la regola più diretta. Quando un sistema ad alto rischio utilizza categorie speciali di dati — salute, razza, religione, politica, biometria — è possibile elaborarli solo quando "strettamente necessario" per i controlli sui bias. È necessario applicare anche "adeguate garanzie". La pulizia dei dati è una delle garanzie più solide che si possono adottare.

In sintesi: la maggior parte dei dataset dei modelli IA contiene dati personali. L'Articolo 10 dice di usare il minimo necessario, con solide garanzie tecniche.

Consulta la nostra pagina sulla conformità legale e la panoramica sulla sicurezza per i dettagli.

Livelli di sanzione

L'EU AI Act prevede tre livelli di sanzione. Tutti superano il GDPR per lo stesso tipo di violazione:

Normativa	Sanzione massima	Cap sul fatturato
GDPR	€20 milioni	4% fatturato globale
EU AI Act (alto rischio)	€15 milioni	3% fatturato globale
EU AI Act (vietato)	€35 milioni	7% fatturato globale

Le violazioni sui dataset rientrano nel livello ad alto rischio (€15M / 3%). Se un regolatore constata che l'uso di dati personali senza garanzie costituisce un atto vietato, si applica il livello massimo.

Esempi reali: €500M di fatturato al 3% = €15M di sanzione. €5 miliardi di fatturato al 3% = €150M di sanzione. Sono cifre reali, non teoria.

Perché la pulizia dei dati risolve il problema

I dati correttamente puliti esulano dall'ambito del GDPR. Ciò elimina la maggior parte degli obblighi dell'Articolo 10.

Le regole più rigide — gestione delle categorie speciali, controlli sui bias, diritti degli interessati — si applicano solo quando un dataset contiene dati personali. Rimuovere quei dati prima. L'onere si riduce sostanzialmente.

La CNIL (autorità francese per la protezione dei dati) ha chiarito questo punto all'inizio del 2026. La sua guida sull'IA afferma: la pulizia dei dati personali non necessari per le prestazioni del modello è la principale misura tecnica per l'Articolo 10.

Non è una posizione marginale. È la posizione mainstream del principale regolatore europeo sull'IA.

Cosa significa la pulizia dei dati nella pratica

Pulire i dataset dei modelli IA non è come pulire i dati di produzione in tempo reale. I dataset dei modelli possono contenere:

Documenti con dati personali — contratti, email, report, ticket di supporto
Dati strutturati — tabelle clienti usate per costruire modelli predittivi
Contenuti etichettati — immagini o testi con annotazioni che includono dati personali
Dati sintetici — dove la generazione può preservare comunque pattern personali

È necessario rilevare i dati personali in tutti questi formati. Mancarne uno tipo espone l'intero dataset. Un contratto con i nomi rimossi ma gli indirizzi completi ancora intatti insegnerà a un modello a collegare la posizione a schemi demografici.

L'API di anonym.legal gestisce l'elaborazione batch per grandi dataset IA. Rileva 285+ tipi di entità in 48 lingue. Per le aziende IA europee con dataset multilingue, la copertura cross-linguistica è fondamentale. Una lacuna in una lingua crea rischi ai sensi dell'EU AI Act per l'intero sistema.

Per ulteriori informazioni sul rilevamento delle entità, consulta la guida al sistema di token e il riferimento ai tipi di entità.

Passaggi pratici: pulire il proprio dataset

Passaggio 1: prima l'audit

Eseguire un passaggio di rilevamento prima di pulire qualsiasi cosa. Questo dice quali dati personali sono presenti:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

La risposta elenca ogni entità rilevata con il suo tipo, posizione e punteggio. Eseguire questo su tutti i file per vedere la portata completa prima di iniziare.

Passaggio 2: pulizia batch

Per grandi dataset, usare l'endpoint batch per elaborare molti file contemporaneamente:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Completato: {result['id']} — {len(result['items'])} entità rimosse")

Passaggio 3: tenere i registri

L'Articolo 10 richiede registrazioni scritte di ciò che è stato fatto. Per ogni dataset, conservare:

Il modello di rilevamento e la versione utilizzata
Quali tipi di entità sono stati trovati e come ciascuno è stato sostituito
Conteggi delle entità rimosse per dataset
La data della pulizia e la versione del dataset utilizzata

Questo soddisfa il requisito di "pratiche di governance e gestione dei dati" nell'Articolo 10(2)(a).

Domande frequenti

La pulizia compromette la qualità del modello?

Nella maggior parte dei casi, no. Il modello apprende i pattern dalla struttura del testo, non dai dettagli personali. Nomi, numeri di telefono e indirizzi possono essere sostituiti con segnaposto come [NOME] o [TELEFONO] e il modello apprende comunque gli stessi pattern. Molti team di ricerca hanno riscontrato che i dataset puliti producono modelli di qualità equivalente. La chiave è usare segnaposto coerenti in modo che il modello veda un pattern chiaro.

E se il mio dataset è molto grande?

Usare l'API batch. Gestisce grandi volumi in parallelo. La pagina dei prezzi mostra i piani per i casi d'uso ad alto volume. Molti team elaborano milioni di record al mese.

E per i dataset non in lingua inglese?

L'API supporta 48 lingue. Ogni lingua utilizza un modello di rilevamento addestrato su quella lingua. Ciò significa che tedesco, francese, spagnolo, giapponese e molte altre lingue sono tutte coperte. Consulta le FAQ per un elenco completo delle lingue. I dataset in più lingue sono supportati — è possibile specificare la lingua per documento nella richiesta batch.

Colorado AI Act: due scadenze

Il Colorado AI Act entra in vigore il 30 giugno 2026 — cinque settimane prima della scadenza europea. Stabilisce regole simili per i "sistemi IA ad alto rischio" ai sensi della legge statale. L'attenzione principale è sui bias e la discriminazione.

I team sia nell'UE che in Colorado affrontano due scadenze contemporaneamente. Pulire i propri dataset aiuta a rispettare entrambe le leggi: l'Articolo 10 (UE) e le regole anti-bias del Colorado. I passaggi tecnici sono gli stessi.

Agire ora

Cinque mesi sono sufficienti — se si inizia oggi. Non lo sono se si aspetta fino a giugno.

Una timeline pratica:

Settimane 1–2: Verificare i propri dataset — scoprire quali dati personali sono presenti
Settimane 3–6: Costruire e testare la propria pipeline di pulizia
Settimane 7–10: Redigere i documenti di governance; ottenere una revisione legale
Settimane 11–16: Validare — confermare che i dataset puliti rispettino le regole di qualità dell'Articolo 10
2 agosto: Data di applicazione — pratiche conformi in vigore

L'API di anonym.legal si integra nella pipeline attuale senza grandi modifiche. Consulta i prezzi per i piani a volume. Le FAQ coprono le domande comuni sull'Articolo 10.

Usa la checklist di conformità GDPR per i dati che si sovrappongono tra GDPR e Articolo 10.

L'EU AI Act è pronto per l'applicazione. La tua organizzazione sarà pronta entro il 2 agosto?

Inizia con la checklist di conformità GDPR →

Limiti e questioni aperte

La pulizia dei dati per le regole dell'AI Act è ancora in evoluzione. Ecco le principali lacune.

Le soglie non sono definite. L'EU AI Act non specifica quale livello di pulizia sia "sufficiente". Finché l'Ufficio europeo per l'IA non emette orientamenti, si affronta un rischio legale. Potrebbe non essere chiaro se il proprio metodo soddisferà i regolatori.

Il rischio di re-identificazione persiste. La ricerca mostra che i grandi modelli linguistici possono memorizzare e riprodurre contenuti dai loro dataset. I dati che hanno superato gli standard di pulizia prima dello sviluppo del modello potrebbero ancora essere estraibili. La pulizia prima dello sviluppo non risolve completamente il problema.

I dati sintetici hanno limiti. La generazione sintetica mantiene i pattern statistici ma può aggiungere bias sottili o perdere casi limite rari. I modelli costruiti solo su contenuto sintetico potrebbero avere prestazioni scarse su input reali.

L'Articolo 10 è ancora in corso di interpretazione. La locuzione "misure tecniche appropriate" necessita di interpretazione. Il lavoro iniziale dei DPA nei vari Stati membri dell'UE non ha ancora definito standard chiari. Monitorare gli orientamenti dell'EDPB e le decisioni degli Stati membri durante tutto il 2026.

Fonti

EU AI Act, Regolamento (UE) 2024/1689, Articoli 9–17 (obblighi IA ad alto rischio), GU L 2024/1689
EU AI Act, Articolo 10 — Dati e governance dei dati
Guida CNIL sui dataset IA, gennaio 2026
Colorado AI Act, SB 205, efficace dal 30 giugno 2026
Timeline EU AI Act: pratiche vietate dal 2 febbraio 2025; sistemi ad alto rischio dal 2 agosto 2026

EU AI Act agosto 2026: anonimizzare i dati di addestramento per rispettare l'Articolo 10

Il conto alla rovescia è iniziato

Quali sistemi IA sono ad alto rischio?

Articolo 10: quattro regole chiave

Livelli di sanzione

Perché la pulizia dei dati risolve il problema

Cosa significa la pulizia dei dati nella pratica

Passaggi pratici: pulire il proprio dataset

Domande frequenti

Colorado AI Act: due scadenze

Agire ora

Limiti e questioni aperte

Fonti

Articoli Correlati

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pronto a proteggere i tuoi dati?

EU AI Act agosto 2026: anonimizzare i dati di addestramento per rispettare l'Articolo 10

Il conto alla rovescia è iniziato

Quali sistemi IA sono ad alto rischio?

Articolo 10: quattro regole chiave

Livelli di sanzione

Perché la pulizia dei dati risolve il problema

Cosa significa la pulizia dei dati nella pratica

Passaggi pratici: pulire il proprio dataset

Domande frequenti

Colorado AI Act: due scadenze

Agire ora

Limiti e questioni aperte

Fonti

Articoli Correlati

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pronto a proteggere i tuoi dati?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow