Privacy Riproducibile: Perché i Team ML Hanno Bisogno di Preset, Non Solo di Documentazione
Il DPO ha approvato il piano di anonimizzazione. Copre quattro elementi: nomi, email, numeri di telefono e date di nascita. Il metodo è Replace. Il piano è di quattro pagine e risiede nel wiki della conformità.
Dodici data scientist lo leggono al kickoff. Ognuno configura lo strumento in autonomia. Alcuni aggiungono ID nazionali. Alcuni aggiungono indirizzi IP. Alcuni passano a Redact. Tre mesi dopo, i dataset non sono coerenti.
La CNIL ha verificato diverse aziende IA nel 2024. Il problema: uso improprio di dettagli personali nei dataset di addestramento. Non hanno chiesto solo se l'anonimizzazione fosse avvenuta. Hanno chiesto con quale coerenza fosse stata applicata.
La documentazione è necessaria. Non è sufficiente. La soluzione è il preset.
Perché i Dataset ML Richiedono una Configurazione Propria
La costruzione di dataset ha esigenze specifiche. L'anonimizzazione generale dei documenti non le condivide.
Replace, non Redact. I modelli addestrati su testo in cui i nomi diventano [REDACTED] imparano quel token come marcatore di posizione per i nomi. Questo penalizza il modello. Replace sostituisce "Mario Rossi" con "Luca Ferrari." Il modello vede pattern di nomi reali. Non vede un token maschera.
Stesso processo per tutti i record. Un dataset in cui il 70% dei nomi è sostituito e il 30% è [REDACTED] invia un segnale misto. Ogni record deve seguire gli stessi passaggi.
Stesso elenco di entità. Se il dataset contiene dati sanitari, rimuovere i nomi ma lasciare le date di nascita in alcuni record crea lacune. Tutti e dodici i data scientist devono rimuovere gli stessi tipi.
Nessuna rimozione eccessiva. Rimuovere date che sono timestamp — non date di nascita — riduce la qualità del dataset senza alcun guadagno di conformità. Il preset approvato specifica esattamente quali elementi rimuovere.
Output ripetibile. Se un dataset deve essere rielaborato — ad esempio dopo aver trovato un tipo di entità mancante — il preset produce lo stesso risultato ogni volta. Le configurazioni ad hoc non lo fanno.
Il Problema dei Dodici Data Scientist
Un team ML fintech in Europa usa dataset di log dei clienti. Il DPO ha approvato la finalità — rilevamento frodi — con una regola: tutti i nomi, le email, i numeri di telefono e gli ID di pagamento dei clienti devono essere sostituiti prima dell'avvio del lavoro sul modello.
Senza preset:
- Persona 1 rimuove nomi, email e numeri di telefono — ma dimentica gli ID di pagamento
- Persona 2 include gli ID di pagamento ma usa Redact invece di Replace
- Persona 3 segue esattamente il documento del piano
- Le persone 4–12 variano
Il dataset unificato è parzialmente non conforme e parzialmente sovra-elaborato. Un DPO non può certificarlo.
Con un preset approvato dal DPO:
- Il DPO crea "ML Dev — Rilevamento Frodi" con i tipi di entità esatti e il metodo Replace
- Il preset viene distribuito a tutte e dodici le persone con una regola: usarlo per tutto il lavoro sui dataset
- Nessuno può modificare il preset senza l'approvazione del DPO
Ogni persona produce ora lo stesso output. Il dataset unificato è coerente. L'audit annuale sull'IA si conclude senza rilievi. L'anno precedente aveva tre rilievi da lavoro incoerente sui dataset.
GDPR e AI Act
Aggiornato al 2026
L'EU AI Act ha preso piena efficacia nell'agosto 2024. Aggiunge regole per i sistemi IA che utilizzano dati personali per il lavoro sui modelli. I sistemi IA ad alto rischio devono documentare i propri dataset, inclusa l'anonimizzazione applicata.
L'articolo 5(1)(b) del GDPR — la regola sulla limitazione delle finalità — vieta l'uso di dati personali senza una chiara base giuridica. I casi CNIL del 2024 si sono concentrati su questa lacuna: dati raccolti per un servizio utilizzati per il lavoro sui modelli senza base valida o anonimizzazione.
I preset aiutano a soddisfare entrambi i set di regole:
- Nome e configurazione del preset: il metodo documentato
- Log di elaborazione: prova che il metodo è stato applicato
- Approvazione del DPO: un'approvazione registrata sulla configurazione
Questo crea l'audit trail richiesto da entrambe le normative. Per le obbligazioni dell'Articolo 10 nel dettaglio, vedi la guida sui dati di addestramento dell'EU AI Act.
Configurazione del Preset per Dataset NLP
Tipi da includere nella maggior parte dei dataset NLP:
- PERSON — Replace con nomi simili
- EMAIL_ADDRESS — Replace con indirizzi sintetici
- PHONE_NUMBER — Replace con numeri sintetici
- CREDIT_CARD / IBAN — Replace o Redact
- LOCATION — Replace con luoghi simili se la posizione è rilevante; Redact se non lo è
- DATE_OF_BIRTH — Redact; spesso è necessaria la fascia d'età
Tipi spesso esclusi:
- Date generiche — i timestamp aiutano i modelli temporali
- Nomi di organizzazioni — aiutano i modelli di Named Entity Recognition
- URL — aiutano i modelli di link e riferimenti
Il responsabile ML e il DPO definiscono queste regole nel preset approvato. I membri del team lo applicano. Non prendono decisioni di configurazione.
I Preset come Memoria Istituzionale
Prima dei preset. La configurazione corretta delle entità viveva nella testa di tre data scientist. Avevano lavorato attraverso la revisione di conformità. Due se ne sono andati nel terzo trimestre. La conoscenza è andata con loro.
Dopo i preset. La configurazione vive in "ML Dev — Registri Clienti v2.1." Il log delle versioni mostra quando è stata creata, chi l'ha approvata e cosa è cambiato dalla v2.0. I nuovi membri del team usano il preset e ottengono tutta la conoscenza in esso contenuta.
La versione 2.1 ha aggiunto il rilevamento IBAN dopo che una revisione ha trovato la lacuna. La versione 2.0 è stata approvata nel febbraio 2025. Il log è completo.
Per come funzionano i log di elaborazione e i flussi di revisione del DPO, vedi la guida all'anonimizzazione dei dati di addestramento ML conforme al GDPR.
Preset vs. il Modello CNIL
I casi IA della CNIL del 2024 hanno stabilito uno schema chiaro. Chiedono non solo cosa è stato rimosso, ma come è stato governato. Un preset condiviso con un record di approvazione del DPO e log di elaborazione risponde direttamente a questa domanda.
Una configurazione ad hoc no. La stessa lacuna esiste in altri casi di DPA europei che seguono la logica CNIL. Per ulteriori informazioni sull'approccio CNIL all'IA, vedi la guida alla conformità GDPR per l'IA CNIL.
Conclusione
La documentazione dice ai membri del team cosa fare. I preset rendono facile — e verificabile — farlo allo stesso modo ogni volta.
Per i dataset ML, la coerenza è sia un requisito legale che tecnico. Il preset soddisfa entrambi contemporaneamente.
Le DPA che esaminano le pratiche IA vogliono prove di anonimizzazione uniforme. Un preset applicato allo stesso modo in tutto il lavoro sui dataset è la prova più chiara che si possa fornire.