Torna al BlogGDPR e Conformità

EU AI Act agosto 2026: anonimizzare i dati di addestramento per rispettare l'Articolo 10

L'applicazione integrale dell'EU AI Act inizia il 2 agosto 2026. Sanzioni fino a €35 milioni o 7% del fatturato globale. L'Articolo 10 richiede l'anonimizzazione dei dati di addestramento.

March 16, 20269 min di lettura
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Il conto alla rovescia è iniziato

Aggiornato per il 2026

La scadenza dell'EU AI Act è reale. Le regole dell'Articolo 10 si applicano dal 2 agosto 2026. Se il tuo team sviluppa o gestisce un sistema IA ad alto rischio, agisci ora. Il tempo è poco.

Le sanzioni superano quelle del GDPR. La sanzione massima è €35 milioni o 7% del fatturato annuo globale. Il GDPR si ferma a €20 milioni o 4%. Nessun'altra legge sull'IA prevede sanzioni più elevate.

Quali sistemi IA sono ad alto rischio?

L'AI Act classifica i sistemi in base al rischio. I sistemi ad alto rischio (Allegato III) comprendono l'IA utilizzata in:

  • Istruzione — accesso scolastico o valutazione degli studenti
  • Lavoro — screening di curriculum, valutazione dei colloqui, monitoraggio dei lavoratori
  • Servizi essenziali — scoring creditizio, tariffazione assicurativa, gestione delle emergenze
  • Forze dell'ordine — previsione dei reati, identificazione biometrica
  • Sanità — software per dispositivi medici, triage pazienti
  • Infrastrutture — gestione di energia, acqua o trasporti
  • Giustizia — strumenti di ricerca legale, strumenti per le sentenze

Operi in uno di questi settori? L'Articolo 10 si applica a te.

Articolo 10: quattro regole chiave

L'Articolo 10 stabilisce regole per i dataset utilizzati dai sistemi IA ad alto rischio. Ecco le quattro principali.

1. Governance documentata

I dataset devono seguire "pratiche appropriate di governance e gestione dei dati". Sono necessarie procedure scritte per la raccolta, i controlli di qualità e la revisione continua.

2. Test sui bias

I dati devono essere verificati per "possibili bias" che potrebbero causare output iniqui. È richiesto un test attivo. Evitare bias intenzionali non è sufficiente.

3. Accuratezza e copertura

I dataset devono essere "pertinenti, sufficientemente rappresentativi e privi di errori". Le raccolte web che mancano di determinati gruppi possono non superare questo test.

4. Tipi di dati speciali

L'Articolo 10(5) è la regola più diretta. Quando un sistema ad alto rischio utilizza categorie speciali di dati — salute, razza, religione, politica, biometria — è possibile elaborarli solo quando "strettamente necessario" per i controlli sui bias. È necessario applicare anche "adeguate garanzie". La pulizia dei dati è una delle garanzie più solide che si possono adottare.

In sintesi: la maggior parte dei dataset dei modelli IA contiene dati personali. L'Articolo 10 dice di usare il minimo necessario, con solide garanzie tecniche.

Consulta la nostra pagina sulla conformità legale e la panoramica sulla sicurezza per i dettagli.

Livelli di sanzione

L'EU AI Act prevede tre livelli di sanzione. Tutti superano il GDPR per lo stesso tipo di violazione:

NormativaSanzione massimaCap sul fatturato
GDPR€20 milioni4% fatturato globale
EU AI Act (alto rischio)€15 milioni3% fatturato globale
EU AI Act (vietato)€35 milioni7% fatturato globale

Le violazioni sui dataset rientrano nel livello ad alto rischio (€15M / 3%). Se un regolatore constata che l'uso di dati personali senza garanzie costituisce un atto vietato, si applica il livello massimo.

Esempi reali: €500M di fatturato al 3% = €15M di sanzione. €5 miliardi di fatturato al 3% = €150M di sanzione. Sono cifre reali, non teoria.

Perché la pulizia dei dati risolve il problema

I dati correttamente puliti esulano dall'ambito del GDPR. Ciò elimina la maggior parte degli obblighi dell'Articolo 10.

Le regole più rigide — gestione delle categorie speciali, controlli sui bias, diritti degli interessati — si applicano solo quando un dataset contiene dati personali. Rimuovere quei dati prima. L'onere si riduce sostanzialmente.

La CNIL (autorità francese per la protezione dei dati) ha chiarito questo punto all'inizio del 2026. La sua guida sull'IA afferma: la pulizia dei dati personali non necessari per le prestazioni del modello è la principale misura tecnica per l'Articolo 10.

Non è una posizione marginale. È la posizione mainstream del principale regolatore europeo sull'IA.

Cosa significa la pulizia dei dati nella pratica

Pulire i dataset dei modelli IA non è come pulire i dati di produzione in tempo reale. I dataset dei modelli possono contenere:

  • Documenti con dati personali — contratti, email, report, ticket di supporto
  • Dati strutturati — tabelle clienti usate per costruire modelli predittivi
  • Contenuti etichettati — immagini o testi con annotazioni che includono dati personali
  • Dati sintetici — dove la generazione può preservare comunque pattern personali

È necessario rilevare i dati personali in tutti questi formati. Mancarne uno tipo espone l'intero dataset. Un contratto con i nomi rimossi ma gli indirizzi completi ancora intatti insegnerà a un modello a collegare la posizione a schemi demografici.

L'API di anonym.legal gestisce l'elaborazione batch per grandi dataset IA. Rileva 285+ tipi di entità in 48 lingue. Per le aziende IA europee con dataset multilingue, la copertura cross-linguistica è fondamentale. Una lacuna in una lingua crea rischi ai sensi dell'EU AI Act per l'intero sistema.

Per ulteriori informazioni sul rilevamento delle entità, consulta la guida al sistema di token e il riferimento ai tipi di entità.

Passaggi pratici: pulire il proprio dataset

Passaggio 1: prima l'audit

Eseguire un passaggio di rilevamento prima di pulire qualsiasi cosa. Questo dice quali dati personali sono presenti:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

La risposta elenca ogni entità rilevata con il suo tipo, posizione e punteggio. Eseguire questo su tutti i file per vedere la portata completa prima di iniziare.

Passaggio 2: pulizia batch

Per grandi dataset, usare l'endpoint batch per elaborare molti file contemporaneamente:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Completato: {result['id']} — {len(result['items'])} entità rimosse")

Passaggio 3: tenere i registri

L'Articolo 10 richiede registrazioni scritte di ciò che è stato fatto. Per ogni dataset, conservare:

  • Il modello di rilevamento e la versione utilizzata
  • Quali tipi di entità sono stati trovati e come ciascuno è stato sostituito
  • Conteggi delle entità rimosse per dataset
  • La data della pulizia e la versione del dataset utilizzata

Questo soddisfa il requisito di "pratiche di governance e gestione dei dati" nell'Articolo 10(2)(a).

Domande frequenti

La pulizia compromette la qualità del modello?

Nella maggior parte dei casi, no. Il modello apprende i pattern dalla struttura del testo, non dai dettagli personali. Nomi, numeri di telefono e indirizzi possono essere sostituiti con segnaposto come [NOME] o [TELEFONO] e il modello apprende comunque gli stessi pattern. Molti team di ricerca hanno riscontrato che i dataset puliti producono modelli di qualità equivalente. La chiave è usare segnaposto coerenti in modo che il modello veda un pattern chiaro.

E se il mio dataset è molto grande?

Usare l'API batch. Gestisce grandi volumi in parallelo. La pagina dei prezzi mostra i piani per i casi d'uso ad alto volume. Molti team elaborano milioni di record al mese.

E per i dataset non in lingua inglese?

L'API supporta 48 lingue. Ogni lingua utilizza un modello di rilevamento addestrato su quella lingua. Ciò significa che tedesco, francese, spagnolo, giapponese e molte altre lingue sono tutte coperte. Consulta le FAQ per un elenco completo delle lingue. I dataset in più lingue sono supportati — è possibile specificare la lingua per documento nella richiesta batch.

Colorado AI Act: due scadenze

Il Colorado AI Act entra in vigore il 30 giugno 2026 — cinque settimane prima della scadenza europea. Stabilisce regole simili per i "sistemi IA ad alto rischio" ai sensi della legge statale. L'attenzione principale è sui bias e la discriminazione.

I team sia nell'UE che in Colorado affrontano due scadenze contemporaneamente. Pulire i propri dataset aiuta a rispettare entrambe le leggi: l'Articolo 10 (UE) e le regole anti-bias del Colorado. I passaggi tecnici sono gli stessi.

Agire ora

Cinque mesi sono sufficienti — se si inizia oggi. Non lo sono se si aspetta fino a giugno.

Una timeline pratica:

  1. Settimane 1–2: Verificare i propri dataset — scoprire quali dati personali sono presenti
  2. Settimane 3–6: Costruire e testare la propria pipeline di pulizia
  3. Settimane 7–10: Redigere i documenti di governance; ottenere una revisione legale
  4. Settimane 11–16: Validare — confermare che i dataset puliti rispettino le regole di qualità dell'Articolo 10
  5. 2 agosto: Data di applicazione — pratiche conformi in vigore

L'API di anonym.legal si integra nella pipeline attuale senza grandi modifiche. Consulta i prezzi per i piani a volume. Le FAQ coprono le domande comuni sull'Articolo 10.

Usa la checklist di conformità GDPR per i dati che si sovrappongono tra GDPR e Articolo 10.

L'EU AI Act è pronto per l'applicazione. La tua organizzazione sarà pronta entro il 2 agosto?

Inizia con la checklist di conformità GDPR →

Limiti e questioni aperte

La pulizia dei dati per le regole dell'AI Act è ancora in evoluzione. Ecco le principali lacune.

Le soglie non sono definite. L'EU AI Act non specifica quale livello di pulizia sia "sufficiente". Finché l'Ufficio europeo per l'IA non emette orientamenti, si affronta un rischio legale. Potrebbe non essere chiaro se il proprio metodo soddisferà i regolatori.

Il rischio di re-identificazione persiste. La ricerca mostra che i grandi modelli linguistici possono memorizzare e riprodurre contenuti dai loro dataset. I dati che hanno superato gli standard di pulizia prima dello sviluppo del modello potrebbero ancora essere estraibili. La pulizia prima dello sviluppo non risolve completamente il problema.

I dati sintetici hanno limiti. La generazione sintetica mantiene i pattern statistici ma può aggiungere bias sottili o perdere casi limite rari. I modelli costruiti solo su contenuto sintetico potrebbero avere prestazioni scarse su input reali.

L'Articolo 10 è ancora in corso di interpretazione. La locuzione "misure tecniche appropriate" necessita di interpretazione. Il lavoro iniziale dei DPA nei vari Stati membri dell'UE non ha ancora definito standard chiari. Monitorare gli orientamenti dell'EDPB e le decisioni degli Stati membri durante tutto il 2026.

Fonti

  • EU AI Act, Regolamento (UE) 2024/1689, Articoli 9–17 (obblighi IA ad alto rischio), GU L 2024/1689
  • EU AI Act, Articolo 10 — Dati e governance dei dati
  • Guida CNIL sui dataset IA, gennaio 2026
  • Colorado AI Act, SB 205, efficace dal 30 giugno 2026
  • Timeline EU AI Act: pratiche vietate dal 2 febbraio 2025; sistemi ad alto rischio dal 2 agosto 2026

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.