Privacy Riproducibile: Perché i Team ML Hanno Bisogno di Preset, Non Solo di Documentazione

Il DPO ha approvato il piano di anonimizzazione. Copre quattro elementi: nomi, email, numeri di telefono e date di nascita. Il metodo è Replace. Il piano è di quattro pagine e risiede nel wiki della conformità.

Dodici data scientist lo leggono al kickoff. Ognuno configura lo strumento in autonomia. Alcuni aggiungono ID nazionali. Alcuni aggiungono indirizzi IP. Alcuni passano a Redact. Tre mesi dopo, i dataset non sono coerenti.

La CNIL ha verificato diverse aziende IA nel 2024. Il problema: uso improprio di dettagli personali nei dataset di addestramento. Non hanno chiesto solo se l'anonimizzazione fosse avvenuta. Hanno chiesto con quale coerenza fosse stata applicata.

La documentazione è necessaria. Non è sufficiente. La soluzione è il preset.

Perché i Dataset ML Richiedono una Configurazione Propria

La costruzione di dataset ha esigenze specifiche. L'anonimizzazione generale dei documenti non le condivide.

Replace, non Redact. I modelli addestrati su testo in cui i nomi diventano [REDACTED] imparano quel token come marcatore di posizione per i nomi. Questo penalizza il modello. Replace sostituisce "Mario Rossi" con "Luca Ferrari." Il modello vede pattern di nomi reali. Non vede un token maschera.

Stesso processo per tutti i record. Un dataset in cui il 70% dei nomi è sostituito e il 30% è [REDACTED] invia un segnale misto. Ogni record deve seguire gli stessi passaggi.

Stesso elenco di entità. Se il dataset contiene dati sanitari, rimuovere i nomi ma lasciare le date di nascita in alcuni record crea lacune. Tutti e dodici i data scientist devono rimuovere gli stessi tipi.

Nessuna rimozione eccessiva. Rimuovere date che sono timestamp — non date di nascita — riduce la qualità del dataset senza alcun guadagno di conformità. Il preset approvato specifica esattamente quali elementi rimuovere.

Output ripetibile. Se un dataset deve essere rielaborato — ad esempio dopo aver trovato un tipo di entità mancante — il preset produce lo stesso risultato ogni volta. Le configurazioni ad hoc non lo fanno.

Il Problema dei Dodici Data Scientist

Un team ML fintech in Europa usa dataset di log dei clienti. Il DPO ha approvato la finalità — rilevamento frodi — con una regola: tutti i nomi, le email, i numeri di telefono e gli ID di pagamento dei clienti devono essere sostituiti prima dell'avvio del lavoro sul modello.

Senza preset:

Persona 1 rimuove nomi, email e numeri di telefono — ma dimentica gli ID di pagamento
Persona 2 include gli ID di pagamento ma usa Redact invece di Replace
Persona 3 segue esattamente il documento del piano
Le persone 4–12 variano

Il dataset unificato è parzialmente non conforme e parzialmente sovra-elaborato. Un DPO non può certificarlo.

Con un preset approvato dal DPO:

Il DPO crea "ML Dev — Rilevamento Frodi" con i tipi di entità esatti e il metodo Replace
Il preset viene distribuito a tutte e dodici le persone con una regola: usarlo per tutto il lavoro sui dataset
Nessuno può modificare il preset senza l'approvazione del DPO

Ogni persona produce ora lo stesso output. Il dataset unificato è coerente. L'audit annuale sull'IA si conclude senza rilievi. L'anno precedente aveva tre rilievi da lavoro incoerente sui dataset.

Aggiornato al 2026

L'EU AI Act ha preso piena efficacia nell'agosto 2024. Aggiunge regole per i sistemi IA che utilizzano dati personali per il lavoro sui modelli. I sistemi IA ad alto rischio devono documentare i propri dataset, inclusa l'anonimizzazione applicata.

L'articolo 5(1)(b) del GDPR — la regola sulla limitazione delle finalità — vieta l'uso di dati personali senza una chiara base giuridica. I casi CNIL del 2024 si sono concentrati su questa lacuna: dati raccolti per un servizio utilizzati per il lavoro sui modelli senza base valida o anonimizzazione.

I preset aiutano a soddisfare entrambi i set di regole:

Nome e configurazione del preset: il metodo documentato
Log di elaborazione: prova che il metodo è stato applicato
Approvazione del DPO: un'approvazione registrata sulla configurazione

Questo crea l'audit trail richiesto da entrambe le normative. Per le obbligazioni dell'Articolo 10 nel dettaglio, vedi la guida sui dati di addestramento dell'EU AI Act.

Configurazione del Preset per Dataset NLP

Tipi da includere nella maggior parte dei dataset NLP:

PERSON — Replace con nomi simili
EMAIL_ADDRESS — Replace con indirizzi sintetici
PHONE_NUMBER — Replace con numeri sintetici
CREDIT_CARD / IBAN — Replace o Redact
LOCATION — Replace con luoghi simili se la posizione è rilevante; Redact se non lo è
DATE_OF_BIRTH — Redact; spesso è necessaria la fascia d'età

Tipi spesso esclusi:

Date generiche — i timestamp aiutano i modelli temporali
Nomi di organizzazioni — aiutano i modelli di Named Entity Recognition
URL — aiutano i modelli di link e riferimenti

Il responsabile ML e il DPO definiscono queste regole nel preset approvato. I membri del team lo applicano. Non prendono decisioni di configurazione.

I Preset come Memoria Istituzionale

Prima dei preset. La configurazione corretta delle entità viveva nella testa di tre data scientist. Avevano lavorato attraverso la revisione di conformità. Due se ne sono andati nel terzo trimestre. La conoscenza è andata con loro.

Dopo i preset. La configurazione vive in "ML Dev — Registri Clienti v2.1." Il log delle versioni mostra quando è stata creata, chi l'ha approvata e cosa è cambiato dalla v2.0. I nuovi membri del team usano il preset e ottengono tutta la conoscenza in esso contenuta.

La versione 2.1 ha aggiunto il rilevamento IBAN dopo che una revisione ha trovato la lacuna. La versione 2.0 è stata approvata nel febbraio 2025. Il log è completo.

Per come funzionano i log di elaborazione e i flussi di revisione del DPO, vedi la guida all'anonimizzazione dei dati di addestramento ML conforme al GDPR.

Preset vs. il Modello CNIL

I casi IA della CNIL del 2024 hanno stabilito uno schema chiaro. Chiedono non solo cosa è stato rimosso, ma come è stato governato. Un preset condiviso con un record di approvazione del DPO e log di elaborazione risponde direttamente a questa domanda.

Una configurazione ad hoc no. La stessa lacuna esiste in altri casi di DPA europei che seguono la logica CNIL. Per ulteriori informazioni sull'approccio CNIL all'IA, vedi la guida alla conformità GDPR per l'IA CNIL.

Conclusione

La documentazione dice ai membri del team cosa fare. I preset rendono facile — e verificabile — farlo allo stesso modo ogni volta.

Per i dataset ML, la coerenza è sia un requisito legale che tecnico. Il preset soddisfa entrambi contemporaneamente.

Le DPA che esaminano le pratiche IA vogliono prove di anonimizzazione uniforme. Un preset applicato allo stesso modo in tutto il lavoro sui dataset è la prova più chiara che si possa fornire.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

Inizia Prova Gratuita Visualizza Funzionalità

Privacy Riproducibile: Preset ML

Privacy Riproducibile: Perché i Team ML Hanno Bisogno di Preset, Non Solo di Documentazione

Perché i Dataset ML Richiedono una Configurazione Propria

Il Problema dei Dodici Data Scientist

Configurazione del Preset per Dataset NLP

I Preset come Memoria Istituzionale

Preset vs. il Modello CNIL

Conclusione

Fonti

Articoli Correlati

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Pronto a proteggere i tuoi dati?

Privacy Riproducibile: Preset ML

Privacy Riproducibile: Perché i Team ML Hanno Bisogno di Preset, Non Solo di Documentazione

Perché i Dataset ML Richiedono una Configurazione Propria

Il Problema dei Dodici Data Scientist

GDPR e AI Act

Configurazione del Preset per Dataset NLP

I Preset come Memoria Istituzionale

Preset vs. il Modello CNIL

Conclusione

Fonti

Articoli Correlati

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Pronto a proteggere i tuoi dati?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow