Aggiornato per il 2026
Il problema di precisione al 22,7%
Uno studio del 2024 ha testato Microsoft Presidio su file aziendali. Presidio è uno strumento PII open source ampiamente utilizzato da team legali e organizzazioni sanitarie.
Lo studio ha misurato la frequenza con cui Presidio era corretto. Di tutti gli elementi segnalati come nomi di persone, quanti lo erano davvero?
La risposta è stata 22,7%. Circa 77 segnalazioni su 100 erano errate. Lo studio ha contato 13.536 falsi positivi su 4.434 file campione.
Gli errori non erano casuali, ma seguivano schemi precisi:
- Pronomi segnalati come persone ("I" a inizio frase)
- Nomi di navi segnalati come persone ("ASL Scorpio")
- Nomi di aziende segnalati come persone ("Deloitte & Touche")
- Termini geografici segnalati come persone ("Argentina", "Singapore")
Nessuno di questi è un caso limite raro. Compaiono ogni volta che un modello NLP generico incontra testi di dominio specifico. Il modello non era stato progettato per distinguerli.
Cosa costano i falsi positivi
In ambito legale e sanitario, ogni segnalazione richiede una risposta. I team hanno tre opzioni, tutte con costi reali.
Opzione 1: un operatore verifica ogni segnalazione. Il costo orario di avvocati e professionisti va dai 200 agli 800 euro. Con una precisione del 22,7%, il volume è enorme. Non è sostenibile su scala. Consulta Automazione PII nell'eDiscovery e riduzione dei costi di revisione legale per come i costi di revisione crescono con i volumi.
Opzione 2: saltare la revisione e fidarsi dell'output. Anche questo è rischioso. Quando il 77% degli elementi "oscurati" non è sensibile, si crea un rischio legale. I tribunali hanno sanzionato gli avvocati per eccessiva oscurazione. Consulta Sanzioni nell'eDiscovery per eccessiva oscurazione per i casi documentati.
Opzione 3: aumentare la soglia del punteggio. Presidio consente agli utenti di impostare un score_threshold per eliminare le segnalazioni deboli. Uno studio DICOM del 2024 lo ha testato a 0,7 — una soglia piuttosto alta. Il risultato: 38 su 39 immagini DICOM presentavano ancora falsi positivi. Le soglie aiutano. Non risolvono la causa radice.
Perché il NLP generico fatica in questi contesti
Il divario di Presidio deriva da un disallineamento tra i dati di addestramento e l'uso reale.
I documenti legali abbondano di termini in maiuscolo. Nomi di cause, titoli di leggi e codici di allegati sembrano tutti dati personali a un modello generico, che li segnala. La maggior parte non lo è.
I documenti sanitari aggiungono nomi di farmaci, codici dispositivo e abbreviazioni cliniche. "Pt." significa Paziente. "Dr." significa Dottore. Questi ingannano il rilevamento delle entità in modi difficili da prevedere.
I documenti finanziari contengono codici prodotto, stringhe di entità e ID account che condividono pattern superficiali con i dati personali.
Il fine-tuning di un modello su dati di dominio specifico aiuta, ma richiede tempo e impegno per essere costruito e mantenuto aggiornato.
Come il rilevamento ibrido risolve il problema
Il problema dei falsi positivi ha una soluzione chiara: dividere il lavoro per tipo di dato.
Regole pattern per dati strutturati. Numeri di previdenza sociale, numeri di telefono, indirizzi email e formati ID seguono regole fisse. Una stringa o corrisponde al pattern e supera la verifica della cifra di controllo, o no. Zero falsi positivi per set di regole validi.
Modelli linguistici per testo libero. Nomi e cognomi, ragioni sociali e luoghi nel testo narrativo non hanno una struttura rigida. Il NLP li trova quando le regole non bastano. Punteggi di confidenza e verifiche del contesto riducono il tasso di falsi positivi.
Impostazioni di punteggio per tipo per un controllo fine. I team legali che non possono rischiare l'eccessiva oscurazione impostano soglie elevate per le corrispondenze fuzzy. I team di ricerca che necessitano di alto recall impostano soglie più basse. Consulta Rilevamento PII binario e punteggi di confidenza per la conformità per come funzionano i livelli di punteggio in pratica.
Il risultato è un numero di errori molto inferiore rispetto ai valori predefiniti di Presidio, mantenendo un recall solido dove le sole regole mancherebbero troppo.
Per i team legali e sanitari, la domanda chiave non è se esistono falsi positivi — esistono sempre nei sistemi NLP. La domanda è se lo strumento permette di impostare, misurare e documentare il compromesso.