By · Last updated 2026-06-04

Torna al BlogTecnico

Privacy Riproducibile: Preset ML

L'anonimizzazione dei dati di addestramento ML deve essere coerente e riproducibile. Se i data scientist A e B applicano tipi di entità diversi, i dataset di addestramento risultano inconsistenti.

June 4, 20266 min di lettura
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Privacy Riproducibile: Perché i Team ML Hanno Bisogno di Preset, Non Solo di Documentazione

Il DPO ha approvato il piano di anonimizzazione. Copre quattro elementi: nomi, email, numeri di telefono e date di nascita. Il metodo è Replace. Il piano è di quattro pagine e risiede nel wiki della conformità.

Dodici data scientist lo leggono al kickoff. Ognuno configura lo strumento in autonomia. Alcuni aggiungono ID nazionali. Alcuni aggiungono indirizzi IP. Alcuni passano a Redact. Tre mesi dopo, i dataset non sono coerenti.

La CNIL ha verificato diverse aziende IA nel 2024. Il problema: uso improprio di dettagli personali nei dataset di addestramento. Non hanno chiesto solo se l'anonimizzazione fosse avvenuta. Hanno chiesto con quale coerenza fosse stata applicata.

La documentazione è necessaria. Non è sufficiente. La soluzione è il preset.

Perché i Dataset ML Richiedono una Configurazione Propria

La costruzione di dataset ha esigenze specifiche. L'anonimizzazione generale dei documenti non le condivide.

Replace, non Redact. I modelli addestrati su testo in cui i nomi diventano [REDACTED] imparano quel token come marcatore di posizione per i nomi. Questo penalizza il modello. Replace sostituisce "Mario Rossi" con "Luca Ferrari." Il modello vede pattern di nomi reali. Non vede un token maschera.

Stesso processo per tutti i record. Un dataset in cui il 70% dei nomi è sostituito e il 30% è [REDACTED] invia un segnale misto. Ogni record deve seguire gli stessi passaggi.

Stesso elenco di entità. Se il dataset contiene dati sanitari, rimuovere i nomi ma lasciare le date di nascita in alcuni record crea lacune. Tutti e dodici i data scientist devono rimuovere gli stessi tipi.

Nessuna rimozione eccessiva. Rimuovere date che sono timestamp — non date di nascita — riduce la qualità del dataset senza alcun guadagno di conformità. Il preset approvato specifica esattamente quali elementi rimuovere.

Output ripetibile. Se un dataset deve essere rielaborato — ad esempio dopo aver trovato un tipo di entità mancante — il preset produce lo stesso risultato ogni volta. Le configurazioni ad hoc non lo fanno.

Il Problema dei Dodici Data Scientist

Un team ML fintech in Europa usa dataset di log dei clienti. Il DPO ha approvato la finalità — rilevamento frodi — con una regola: tutti i nomi, le email, i numeri di telefono e gli ID di pagamento dei clienti devono essere sostituiti prima dell'avvio del lavoro sul modello.

Senza preset:

  • Persona 1 rimuove nomi, email e numeri di telefono — ma dimentica gli ID di pagamento
  • Persona 2 include gli ID di pagamento ma usa Redact invece di Replace
  • Persona 3 segue esattamente il documento del piano
  • Le persone 4–12 variano

Il dataset unificato è parzialmente non conforme e parzialmente sovra-elaborato. Un DPO non può certificarlo.

Con un preset approvato dal DPO:

  • Il DPO crea "ML Dev — Rilevamento Frodi" con i tipi di entità esatti e il metodo Replace
  • Il preset viene distribuito a tutte e dodici le persone con una regola: usarlo per tutto il lavoro sui dataset
  • Nessuno può modificare il preset senza l'approvazione del DPO

Ogni persona produce ora lo stesso output. Il dataset unificato è coerente. L'audit annuale sull'IA si conclude senza rilievi. L'anno precedente aveva tre rilievi da lavoro incoerente sui dataset.

GDPR e AI Act

Aggiornato al 2026

L'EU AI Act ha preso piena efficacia nell'agosto 2024. Aggiunge regole per i sistemi IA che utilizzano dati personali per il lavoro sui modelli. I sistemi IA ad alto rischio devono documentare i propri dataset, inclusa l'anonimizzazione applicata.

L'articolo 5(1)(b) del GDPR — la regola sulla limitazione delle finalità — vieta l'uso di dati personali senza una chiara base giuridica. I casi CNIL del 2024 si sono concentrati su questa lacuna: dati raccolti per un servizio utilizzati per il lavoro sui modelli senza base valida o anonimizzazione.

I preset aiutano a soddisfare entrambi i set di regole:

  • Nome e configurazione del preset: il metodo documentato
  • Log di elaborazione: prova che il metodo è stato applicato
  • Approvazione del DPO: un'approvazione registrata sulla configurazione

Questo crea l'audit trail richiesto da entrambe le normative. Per le obbligazioni dell'Articolo 10 nel dettaglio, vedi la guida sui dati di addestramento dell'EU AI Act.

Configurazione del Preset per Dataset NLP

Tipi da includere nella maggior parte dei dataset NLP:

  • PERSON — Replace con nomi simili
  • EMAIL_ADDRESS — Replace con indirizzi sintetici
  • PHONE_NUMBER — Replace con numeri sintetici
  • CREDIT_CARD / IBAN — Replace o Redact
  • LOCATION — Replace con luoghi simili se la posizione è rilevante; Redact se non lo è
  • DATE_OF_BIRTH — Redact; spesso è necessaria la fascia d'età

Tipi spesso esclusi:

  • Date generiche — i timestamp aiutano i modelli temporali
  • Nomi di organizzazioni — aiutano i modelli di Named Entity Recognition
  • URL — aiutano i modelli di link e riferimenti

Il responsabile ML e il DPO definiscono queste regole nel preset approvato. I membri del team lo applicano. Non prendono decisioni di configurazione.

I Preset come Memoria Istituzionale

Prima dei preset. La configurazione corretta delle entità viveva nella testa di tre data scientist. Avevano lavorato attraverso la revisione di conformità. Due se ne sono andati nel terzo trimestre. La conoscenza è andata con loro.

Dopo i preset. La configurazione vive in "ML Dev — Registri Clienti v2.1." Il log delle versioni mostra quando è stata creata, chi l'ha approvata e cosa è cambiato dalla v2.0. I nuovi membri del team usano il preset e ottengono tutta la conoscenza in esso contenuta.

La versione 2.1 ha aggiunto il rilevamento IBAN dopo che una revisione ha trovato la lacuna. La versione 2.0 è stata approvata nel febbraio 2025. Il log è completo.

Per come funzionano i log di elaborazione e i flussi di revisione del DPO, vedi la guida all'anonimizzazione dei dati di addestramento ML conforme al GDPR.

Preset vs. il Modello CNIL

I casi IA della CNIL del 2024 hanno stabilito uno schema chiaro. Chiedono non solo cosa è stato rimosso, ma come è stato governato. Un preset condiviso con un record di approvazione del DPO e log di elaborazione risponde direttamente a questa domanda.

Una configurazione ad hoc no. La stessa lacuna esiste in altri casi di DPA europei che seguono la logica CNIL. Per ulteriori informazioni sull'approccio CNIL all'IA, vedi la guida alla conformità GDPR per l'IA CNIL.

Conclusione

La documentazione dice ai membri del team cosa fare. I preset rendono facile — e verificabile — farlo allo stesso modo ogni volta.

Per i dataset ML, la coerenza è sia un requisito legale che tecnico. Il preset soddisfa entrambi contemporaneamente.

Le DPA che esaminano le pratiche IA vogliono prove di anonimizzazione uniforme. Un preset applicato allo stesso modo in tutto il lavoro sui dataset è la prova più chiara che si possa fornire.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.