Torna al BlogTecnico

La Tassa dei Falsi Positivi: Perché il Problema di...

Il problema dei falsi positivi sistematici è documentato nell'issue #1071 di Presidio su GitHub.

April 3, 20268 min di lettura
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

La Tassa di Conformità Invisibile

Gli strumenti di rilevamento PII vengono tipicamente valutati in base al richiamo — quale percentuale di PII reale è stata catturata dallo strumento? Ma la precisione — quale percentuale delle rilevazioni dello strumento è PII reale — determina il costo operativo dell'utilizzo dello strumento.

Un sistema con il 95% di richiamo e il 22,7% di precisione cattura il 95% della PII reale, ma per ogni entità PII reale rilevata, segnala 3,4 falsi positivi. In un dataset contenente 10.000 entità PII reali, questo sistema genera 10.000 / 0.227 ≈ 44.000 rilevazioni totali, delle quali 34.000 sono falsi positivi che richiedono revisione manuale o causano sovra-rieditazione.

Questa è la "tassa dei falsi positivi": il sovraccarico operativo imposto a qualsiasi organizzazione che cerca di utilizzare un sistema di rilevamento PII ad alto richiamo e bassa precisione su scala produttiva. La tassa dei falsi positivi ha costi diretti — tempo di revisione manuale — e costi indiretti: documenti sovra-rieditati oscurano informazioni rilevanti, rallentano i flussi di lavoro e riducono la fiducia nel sistema automatizzato.

Cosa Documenta l'Issue #1071 di Presidio

La discussione su GitHub di Microsoft Presidio #1071 (2024) documenta un modello specifico e sistematico di falsi positivi. I riconoscitori TFN (Tax File Number) e PCI con validazione del checksum producono punteggi di fiducia di 1.0 — massima fiducia — per numeri non PII che casualmente superano l'algoritmo di checksum.

Il problema di progettazione: il controllo delle parole di contesto (verifica che parole come "tax file number" o "TFN" appaiano vicino all'entità rilevata) viene applicato dopo il passo del checksum anziché prima. I numeri che superano il checksum ottengono un punteggio di 1.0 indipendentemente dal contesto. In documenti contenenti dati numerici — fogli di calcolo finanziari, dataset scientifici, file di log — questo produce un'inondazione di falsi positivi che non possono essere filtrati solo in base alla soglia di punteggio.

Un modello separato dalla comunità di Presidio (issue GitHub #999): la segmentazione delle parole tedesche crea falsi positivi per entità di nome e posizione. Composti tedeschi come "Bundesbehörde" (autorità federale) o termini tedeschi comuni possono essere segmentati in modo errato e rilevati come nomi personali.

Il Problema della Precisione del 22,7%

Alvaro et al. (2024) hanno valutato le impostazioni predefinite di Presidio su dataset aziendali multilingue e hanno trovato 22,7% di precisione — il che significa che in documenti aziendali reali, meno di 1 su 4 delle rilevazioni di Presidio corrisponde a PII reale. Questa cifra è coerente con l'esperienza sul campo dei professionisti: Presidio ottimizzato per il richiamo produce rumore inutilizzabile in produzione.

Uno studio del 2024 che esamina i metadati delle immagini mediche DICOM ha trovato che anche con score_threshold=0.7, 38 su 39 immagini DICOM avevano ancora entità falsi positivi. La soglia che elimina i falsi positivi per un tipo di documento crea falsi negativi per un altro.

Il problema della precisione non è unico per Presidio — riflette la difficoltà intrinseca di costruire un rilevatore PII ad alto richiamo che raggiunga anche alta precisione su diversi tipi di documenti, lingue e formati di dati. La sfida è che qualsiasi soglia fissa rappresenta un compromesso: una soglia alta riduce i falsi positivi ma aumenta i falsi negativi; una soglia bassa aumenta il richiamo ma gonfia i falsi positivi.

La Soluzione Consapevole del Contesto

L'alternativa alla regolazione della soglia è il punteggio di fiducia consapevole del contesto. Piuttosto che assegnare fiducia basandosi esclusivamente sulla corrispondenza del modello dell'entità, il punteggio consapevole del contesto aumenta la fiducia quando le parole di contesto appaiono vicino alla corrispondenza e sopprime i falsi positivi quando il contesto è assente.

Per il rilevamento del TFN: un punteggio viene aumentato quando "tax file number", "TFN" o "Australian tax" appare all'interno di una finestra configurabile. Un numero che supera il checksum del TFN senza parole di contesto vicine riceve un punteggio di fiducia ridotto che scende sotto la soglia di revisione.

Per i falsi positivi interlinguistici: i tipi di entità specifici per determinate lingue (ID fiscale tedesco, NIR francese, TFN australiano) possono essere limitati a documenti rilevati come quella lingua. Un rilevatore TFN applicato solo a documenti in inglese e inglese australiano elimina i falsi positivi sistematici che si verificano quando lo stesso rilevatore viene eseguito su documenti tedeschi.

Il terzo livello di rilevamento ibrido — modelli contestuali basati su transformer — aggiunge un ulteriore strato: il modello valuta il contesto circostante completo per distinguere un vero nome personale ("John Smith, Patient ID 12345") da un falso positivo (un identificatore di prodotto che casualmente corrisponde a un modello di nome).

Fonti:

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.