Impozitul de Conformitate Invizibil
Instrumentele de detectare PII sunt de obicei evaluate pe baza recall-ului — ce procent din PII-ul real a fost capturat de instrument? Dar precizia — ce procent din detecțiile instrumentului sunt PII real — determină costul operațional al utilizării instrumentului.
Un sistem cu 95% recall și 22,7% precizie captează 95% din PII-ul real, dar pentru fiecare entitate PII reală detectată, semnalează 3,4 fals pozitivi. Într-un set de date care conține 10.000 de entități PII reale, acest sistem generează 10.000 / 0,227 ≈ 44.000 de detecții totale, din care 34.000 sunt fals pozitivi care necesită revizuire manuală sau cauzează supra-redactare.
Acesta este "impozitul fals pozitiv": sarcina operațională impusă oricărei organizații care încearcă să utilizeze un sistem de detectare PII cu recall ridicat și precizie scăzută la scară de producție. Impozitul fals pozitiv are costuri directe — timp de revizuire manuală — și costuri indirecte: documentele supra-redactate ascund informații relevante, încetinesc fluxurile de lucru și reduc încrederea în sistemul automatizat.
Ce Documentează Problema Presidio #1071
Discuția GitHub Microsoft Presidio #1071 (2024) documentează un model specific și sistematic de fals pozitiv. Recunoscătorii TFN (Tax File Number) și PCI cu validare checksum produc scoruri de încredere de 1,0 — încredere maximă — pentru numere non-PII care se întâmplă să treacă algoritmul checksum.
Problema de design: verificarea cuvintelor de context (verificarea că cuvinte precum "tax file number" sau "TFN" apar lângă entitatea detectată) este aplicată după pasul checksum în loc de înainte. Numerele care trec checksum-ul primesc un scor de 1,0 indiferent de context. În documente care conțin date numerice — foi de calcul financiare, seturi de date științifice, fișiere jurnal — aceasta produce o inundație de fals pozitivi care nu pot fi filtrați doar prin prag de scor.
Un model separat din comunitatea Presidio (problema GitHub #999): segmentarea cuvintelor germane creează fals pozitivi pentru entități de nume și locație. Compușii germani precum "Bundesbehörde" (autoritate federală) sau termeni comuni germani pot fi segmentați incorect și detectați ca nume personale.
Problema Preciziei de 22,7%
Alvaro et al. (2024) au evaluat setările implicite Presidio pe seturi de date multilingve în mediul enterprise și au găsit 22,7% precizie — ceea ce înseamnă că în documente enterprise reale, mai puțin de 1 din 4 detecții Presidio corespunde PII-ului real. Această cifră este în concordanță cu experiența practică a profesioniștilor: Presidio reglat pentru recall produce zgomot inutilizabil în producție.
Un studiu din 2024 care a examinat metadate de imagistică medicală DICOM a găsit că chiar și cu score_threshold=0.7, 38 din 39 imagini DICOM aveau încă entități fals pozitive. Pragul care elimină fals pozitivii pentru un tip de document creează fals negativi pentru altul.
Problema preciziei nu este unică pentru Presidio — reflectă dificultatea inerentă a construirii unui detector PII cu recall ridicat care să obțină și precizie ridicată în diverse tipuri de documente, limbi și formate de date. Provocarea este că orice prag fix reprezintă un compromis: prag ridicat reduce fals pozitivii dar crește fals negativii; prag scăzut crește recall-ul dar umflă fals pozitivii.
Soluția Conștientă de Context
Alternativa la reglarea pragului este scorarea încrederii conștiente de context. În loc să atribuiți încredere doar pe baza potrivirii modelului entității, scorarea conștientă de context mărește încrederea când cuvinte de context apar lângă potrivire și suprimă fals pozitivii când contextul lipsește.
Pentru detectarea TFN: un scor este mărit când "tax file number", "TFN" sau "Australian tax" apare într-o fereastră configurabilă. Un număr care trece checksum-ul TFN fără cuvinte de context apropiate primește un scor de încredere redus care cade sub pragul de revizuire.
Pentru fals pozitivi multilingvi: tipurile de entități care sunt specifice anumitor limbi (ID fiscal german, NIR francez, TFN australian) pot fi limitate la documente detectate ca acea limbă. Un detector TFN aplicat doar documentelor în limba engleză și engleză australiană elimină fals pozitivii sistematici care apar când același detector rulează pe documente germane.
Al treilea nivel de detectare hibridă — modele contextuale bazate pe transformer — adaugă un alt strat: modelul evaluează contextul înconjurător complet pentru a distinge un nume personal autentic ("John Smith, Patient ID 12345") de un fals pozitiv (un identificator de produs care se întâmplă să se potrivească cu un model de nume).
Surse: