By · Last updated 2026-03-23

Torna al BlogTecnico

Falsi positivi: perché la redazione ML fallisce

Un benchmark del 2024 ha rilevato che Presidio ha generato 13.536 falsi positivi nel rilevamento di nomi su 4.434 campioni — segnalando pronomi, nomi di imbarcazioni e paesi come nomi di persone.

March 23, 20268 min di lettura
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Aggiornato per il 2026

Il problema di precisione al 22,7%

Uno studio del 2024 ha testato Microsoft Presidio su file aziendali. Presidio è uno strumento PII open source ampiamente utilizzato da team legali e organizzazioni sanitarie.

Lo studio ha misurato la frequenza con cui Presidio era corretto. Di tutti gli elementi segnalati come nomi di persone, quanti lo erano davvero?

La risposta è stata 22,7%. Circa 77 segnalazioni su 100 erano errate. Lo studio ha contato 13.536 falsi positivi su 4.434 file campione.

Gli errori non erano casuali, ma seguivano schemi precisi:

  • Pronomi segnalati come persone ("I" a inizio frase)
  • Nomi di navi segnalati come persone ("ASL Scorpio")
  • Nomi di aziende segnalati come persone ("Deloitte & Touche")
  • Termini geografici segnalati come persone ("Argentina", "Singapore")

Nessuno di questi è un caso limite raro. Compaiono ogni volta che un modello NLP generico incontra testi di dominio specifico. Il modello non era stato progettato per distinguerli.

Cosa costano i falsi positivi

In ambito legale e sanitario, ogni segnalazione richiede una risposta. I team hanno tre opzioni, tutte con costi reali.

Opzione 1: un operatore verifica ogni segnalazione. Il costo orario di avvocati e professionisti va dai 200 agli 800 euro. Con una precisione del 22,7%, il volume è enorme. Non è sostenibile su scala. Consulta Automazione PII nell'eDiscovery e riduzione dei costi di revisione legale per come i costi di revisione crescono con i volumi.

Opzione 2: saltare la revisione e fidarsi dell'output. Anche questo è rischioso. Quando il 77% degli elementi "oscurati" non è sensibile, si crea un rischio legale. I tribunali hanno sanzionato gli avvocati per eccessiva oscurazione. Consulta Sanzioni nell'eDiscovery per eccessiva oscurazione per i casi documentati.

Opzione 3: aumentare la soglia del punteggio. Presidio consente agli utenti di impostare un score_threshold per eliminare le segnalazioni deboli. Uno studio DICOM del 2024 lo ha testato a 0,7 — una soglia piuttosto alta. Il risultato: 38 su 39 immagini DICOM presentavano ancora falsi positivi. Le soglie aiutano. Non risolvono la causa radice.

Perché il NLP generico fatica in questi contesti

Il divario di Presidio deriva da un disallineamento tra i dati di addestramento e l'uso reale.

I documenti legali abbondano di termini in maiuscolo. Nomi di cause, titoli di leggi e codici di allegati sembrano tutti dati personali a un modello generico, che li segnala. La maggior parte non lo è.

I documenti sanitari aggiungono nomi di farmaci, codici dispositivo e abbreviazioni cliniche. "Pt." significa Paziente. "Dr." significa Dottore. Questi ingannano il rilevamento delle entità in modi difficili da prevedere.

I documenti finanziari contengono codici prodotto, stringhe di entità e ID account che condividono pattern superficiali con i dati personali.

Il fine-tuning di un modello su dati di dominio specifico aiuta, ma richiede tempo e impegno per essere costruito e mantenuto aggiornato.

Come il rilevamento ibrido risolve il problema

Il problema dei falsi positivi ha una soluzione chiara: dividere il lavoro per tipo di dato.

Regole pattern per dati strutturati. Numeri di previdenza sociale, numeri di telefono, indirizzi email e formati ID seguono regole fisse. Una stringa o corrisponde al pattern e supera la verifica della cifra di controllo, o no. Zero falsi positivi per set di regole validi.

Modelli linguistici per testo libero. Nomi e cognomi, ragioni sociali e luoghi nel testo narrativo non hanno una struttura rigida. Il NLP li trova quando le regole non bastano. Punteggi di confidenza e verifiche del contesto riducono il tasso di falsi positivi.

Impostazioni di punteggio per tipo per un controllo fine. I team legali che non possono rischiare l'eccessiva oscurazione impostano soglie elevate per le corrispondenze fuzzy. I team di ricerca che necessitano di alto recall impostano soglie più basse. Consulta Rilevamento PII binario e punteggi di confidenza per la conformità per come funzionano i livelli di punteggio in pratica.

Il risultato è un numero di errori molto inferiore rispetto ai valori predefiniti di Presidio, mantenendo un recall solido dove le sole regole mancherebbero troppo.

Per i team legali e sanitari, la domanda chiave non è se esistono falsi positivi — esistono sempre nei sistemi NLP. La domanda è se lo strumento permette di impostare, misurare e documentare il compromesso.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.