By · Last updated 2026-04-03

Torna al BlogTecnico

Il costo dei falsi positivi negli strumenti di rilevamento PII

La discussione GitHub #1071 di Presidio documenta falsi positivi sistematici. Uno studio del 2024 ha rilevato una precisione del 22,7% su dataset aziendali multilingue.

April 3, 20268 min di lettura
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Il costo dei falsi positivi negli strumenti di rilevamento PII

Aggiornato per il 2026

La maggior parte degli strumenti PII viene valutata sul richiamo: la percentuale di dati personali reali che lo strumento individua. Ma la precisione è altrettanto importante. La precisione misura quale quota degli alert dello strumento corrisponde a dati personali reali.

Una bassa precisione è costosa. Un sistema con il 95% di richiamo e il 22,7% di precisione intercetta la maggior parte dei dati personali, ma per ogni entità PII reale segnalata genera anche 3,4 alert errati. In un dataset con 10.000 entità PII reali, questo sistema produce circa 44.000 alert, di cui circa 34.000 errati. Ognuno ha un costo in termini di tempo di revisione o causa una redazione eccessiva.

Questo è il costo dei falsi positivi: il sovraccarico che ogni team paga quando esegue su larga scala un sistema PII ad alto richiamo e bassa precisione. Il costo diretto è il tempo dei revisori. Il costo indiretto è ancora più grave: i documenti sovra-redatti nascondono dati utili, rallentano il lavoro ed erodono la fiducia nello strumento.

Cosa mostra la discussione Presidio #1071

La discussione GitHub #1071 di Microsoft Presidio (2024) documenta un pattern specifico. I riconoscitori TFN (Tax File Number) e PCI utilizzano la validazione del checksum. I numeri che superano il checksum ricevono un punteggio di 1,0 — la massima confidenza — senza richiedere contesto PII.

La causa radice: la verifica delle parole di contesto viene eseguita dopo il passaggio del checksum, non prima. Un numero che supera il checksum ottiene il punteggio massimo indipendentemente dal testo circostante. In fogli di calcolo finanziari, dataset scientifici o file di log, questo inonda l'output di alert errati. Il filtraggio per soglia di punteggio non può risolvere il problema: i punteggi sono già al massimo.

Un secondo pattern emerge dalla discussione Presidio #999: la segmentazione delle parole tedesche si interrompe per i sostantivi composti. Parole come Bundesbehörde (autorità federale) possono essere suddivise in modo errato e contrassegnate come nomi personali, aggiungendo rumore in qualsiasi documento in lingua tedesca.

Il problema della precisione al 22,7%

Alvaro et al. (2024) hanno testato Presidio su dataset aziendali multilingue, rilevando una precisione del 22,7%. Su documenti reali, meno di uno su quattro alert di Presidio corrisponde a un'entità PII reale. Questo corrisponde a quanto i professionisti riportano: uno strumento ottimizzato solo per il richiamo produce troppo rumore per un utilizzo in produzione.

Uno studio DICOM del 2024 ha mostrato che alzare score_threshold a 0,7 lasciava comunque alert errati in 38 su 39 immagini mediche. Una soglia che elimina il rumore in un tipo di documento crea mancati rilevamenti in un altro.

Non si tratta di un problema esclusivo di Presidio. Qualsiasi soglia fissa impone un compromesso: una soglia alta riduce il rumore ma aumenta i mancati rilevamenti; una soglia bassa aumenta il richiamo ma gonfia il numero di alert.

La valutazione contestuale dei punteggi

La soluzione è una valutazione della confidenza contestuale. Invece di assegnare un punteggio basato solo sulla corrispondenza del pattern, il sistema aumenta la confidenza quando parole di contesto compaiono vicino alla corrispondenza, e abbassa il punteggio in assenza di contesto.

Per il rilevamento del TFN: parole come "tax file number", "TFN" o "Australian tax" vicino a un numero ne aumentano il punteggio. Un numero che supera il checksum ma non ha parole di contesto nelle vicinanze ottiene un punteggio inferiore alla soglia di revisione, sopprimendo l'alert spurio.

Per il rumore cross-linguistico: i tipi di entità legati a paesi specifici possono essere limitati ai documenti nella lingua corrispondente. Un rilevatore TFN circoscritto all'inglese e all'inglese australiano elimina il rumore sui testi tedeschi: eseguirlo su contenuti tedeschi senza questo scoping è la fonte del problema.

Il terzo livello in un sistema ibrido è un modello transformer che legge l'intera finestra di contesto attorno a ogni candidato e distingue "John Smith, ID paziente 12345" da un codice prodotto che corrisponde a un pattern nominale. Il contesto risolve l'ambiguità che regex e checksum non possono gestire.

Scopri come il motore di rilevamento a tre livelli gestisce la precisione su larga scala. La guida al rilevamento PII multilingue illustra come il rumore cross-linguistico influisca sulla conformità GDPR.

Passi pratici

Prima di distribuire qualsiasi strumento PII, misura la sua precisione — non solo il richiamo.

Esegui lo strumento su un set di documenti con dati personali noti e non-PII noti. Conta gli alert in entrambi i gruppi. Calcola true_positives / (true_positives + false_positives). Questo valore rivela il carico di revisione prima di impegnarti in un rollout.

Per i team che già utilizzano Presidio, l'analisi della distribuzione dei punteggi è un percorso rapido. Esporta un campione di rilevamenti con i relativi punteggi di confidenza. Conta quanti scendono sotto 0,6, 0,7 e 0,8. Una quota elevata di alert ad alto punteggio su testo pulito segnala un problema di contesto, non un problema di soglia. La panoramica sulla conformità di sicurezza spiega come documentare questo in una DPIA.

Fonti

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.