El problema del 22,7% de precisio de Presidio
Els falsos positius en la deteccio de IIP causen danys reals. Quan el 77,3% del que la vostra eina marca com a "noms de persones" no son noms reals, no esteu protegint la privacitat. Esteu destruint dades.
Una avaluacio de referencia de 2024 va provar el model NER per defecte de Microsoft Presidio en documents empresarials. La prova va cobrir informes financers, cartes a clients, documentacio de productes i tiquets de suport. El resultat: una precisio del 22,7% en la deteccio de noms.
Aquest numero es sorprenent. Per cada 100 elements marcats, 23 son noms individuals reals. Els altres 77 son falsos positius: etiquetes de productes, termes de marca o etiquetes de ciutats.
Tres de cada quatre deteccions son incorrectes. Aixo no es un problema menor de calibratge. Es una eina trencada per a la feina amb documents empresarials.
Per que passa aixo
Presidio utilitza el model en_core_web_lg de spaCy per defecte. Aquest model va aprendre a partir de text periodistic. En les noticies, la majoria dels noms propis son persones o llocs reals.
Els documents empresarials son diferents.
Etiquetes de productes que semblen noms individuals. "Apple iPhone 15 Pro shipment records" es marca com a PERSONA. Igual que "Samsung Galaxy Tab" i "Cisco Meraki deployment".
Termes d'empresa amb parts que semblen noms. A "Johnson Controls results", la paraula "Johnson" es marca com a PERSONA. "Goldman Sachs portfolio" desencadena el mateix error.
Etiquetes de lloc que activen la deteccio de persones. "Victoria Harbour project" marca "Victoria" com a PERSONA. "Santiago hub" marca "Santiago" de la mateixa manera.
El model no te el context per distingir "Apple" (empresa) de "Apple Smith" (una persona). Aquesta mancanca es l'origen de la majoria de falsos positius. El text periodistic li va ensenyar a tractar els noms propis com a persones o llocs. El text empresarial trenca aquesta regla continuament.
L'efecte aigues avall
Una empresa de dades va utilitzar Presidio per netejar enquestes de clients abans de compartir-les. Una auditoria va trobar quatre problemes. Primer, el 40% de les enquestes tenien etiquetes de productes eliminades incorrectament. Segon, les etiquetes de ciutats van ser eliminades de totes les respostes. Tercer, les mencions de marques van ser esborrades del conjunt d'analisi. Quart, no es podia llegir el sentiment sobre productes especifics.
L'equip d'analisi va rebre text redactat amb totes les referencies a productes eliminades. L'enquesta originalment nomenava iPhone Pro i el carregador Apple. Aquell significat havia desaparegut.
L'empresa no estava protegint millor la privacitat. Estava trencant dades sense guanyar compliment normatiu. Presidio va ser substituida despres de l'auditoria.
Consulteu el nostre resum de compliment per saber com la qualitat de deteccio afecta la vostra situacio regulatoria.
Un enfocament millor: deteccio hibrida
El problema no es exclusiu de Presidio. El NER a nivell de token sense context sempre tindra aquest problema. La solucio es la deteccio sensible al context.
Per que els transformadors ajuden: Un model com XLM-RoBERTa llegeix la frase completa. "Apple announced its earnings" implica que Apple es una empresa. "Apple Smith joined the team" implica que Apple es un nom de pila. El context us diu quina es quina.
Aixo millora la precisio mantenint el recall alt. Vegeu la comparativa a continuacio.
| Enfocament | Precisio | Recall |
|---|---|---|
| NER per defecte de Presidio | 22,7% | ~85% |
| Nomes regex | ~95% | ~40% |
| Hibrid (Regex + NLP + Transformer) | ~85% | ~80% |
L'enfocament hibrid assoleix un 85% de precisio. Aixo significa una taxa de falsos positius del 15%. Molt millor que el 77,3%. Per a documents empresarials, aquesta diferencia importa.
L'arquitectura hibrida te quatre passos:
-
Capa de regex: Troba identificadors estructurats: correus electronics, numeros de telefon, SSN, IBAN. Els formats son fixos, de manera que els falsos positius son rars. Aixo s'executa primer.
-
Capa NLP (spaCy): NER estandard per a persones, empreses i llocs. Alt recall, menor precisio.
-
Capa de transformer (XLM-RoBERTa): Puntua de nou cada resultat NLP utilitzant el context complet de la frase. "Apple" en un context de producte perd la seva puntuacio d'entitat. "John" en un text de reclamacio la guanya.
-
Llindar de confianca: Nomes les deteccions per sobre d'una puntuacio determinada arriben a la sortida. Augmenteu el llindar per a casos d'us d'analisi. Baixeu-lo per a la desidentificacio HIPAA.
Resultats despres del canvi
L'empresa d'analisi va canviar a la deteccio hibrida. Els guanys van ser clars. Els falsos positius d'etiquetes de productes van caure del 40% al 3%. Els falsos positius d'etiquetes de ciutats van caure a prop de zero. El recall d'identitat real es va mantenir al ~82%, lleugerament inferior al 85%, pero la precisio va millorar molt.
Les enquestes van tornar a ser utilitzables. "iPhone", "Apple", "Samsung" i "Chicago" van romandre al text. Els noms de clients en contextos de reclamacio van ser eliminats correctament.
La deteccio hibrida requereix mes computacio. Per a treballs grans, els temps d'execucio son una mica mes llargs. Per a la majoria de casos d'us empresarials, el guany en precisio val la pena. L'empresa va poder tornar a fer analisi. Aquell era el proposit de les dades de l'enquesta.
Llegiu sobre el nostre enfocament de deteccio al resum de seguretat.
Quan son acceptables taxes altes de falsos positius
Alguns casos afavoreixen el recall per sobre de la precisio.
HIPAA Safe Harbor: Perdre un veritable positiu es una violacio. Una taxa de falsos positius del 10% esta be si mai es perd PHI real. L'eliminacio excessiva es mes segura que la insuficient.
Revisio legal: Perdre un contacte privilegiat pot revocar el privilegi. Els falsos positius necessiten revisio pero no creen responsabilitat.
Analisi empresarial: L'eliminacio excessiva trenca les dades sense guanyar compliment. La precisio importa mes aqui. Utilitzeu un enfocament hibrid amb un llindar de confianca alt. Aixo mante les etiquetes de marca i els termes de ciutats a la sortida. Nomes s'eliminen els noms de persones reals.
L'equilibri adequat depèn del vostre cas d'us. Les eines que us permeten establir el llindar us donen control. Cap valor per defecte unic funciona per a tots els contextos.
Consulteu les nostres FAQ per a preguntes freqüents sobre llindars i modes de deteccio.
Conclusio
Una taxa de precisio del 22,7% significa que 3 de cada 4 deteccions son incorrectes. Per a documents empresarials, aixo fa que la sortida sigui inutilitzable per a l'analisi. Tambe dona una falsa confianca sobre el compliment.
La deteccio hibrida ho soluciona. Combina regex, NLP i puntuacio de transformadors. Les dades romanen util despres de l'anonimitzacio. Els noms de persones reals s'eliminen. Les etiquetes de marques, els termes de ciutats i els identificadors de productes hi romanen.
Si vau deixar Presidio a causa de problemes de falsos positius, aquest es el cami a seguir. No una nova configuracio del mateix model. Una arquitectura diferent creada per a contextos de documents empresarials.
Fonts
Priva PII Benchmark 2024: Avaluacio de la precisio de Presidio. VERIFICAT-EXTERN.
Microsoft Presidio: Entitats compatibles i arquitectura del model. VERIFICAT-EXTERN.
spaCy: Dades d'entrenament i limitacions d'en_core_web_lg. VERIFICAT-EXTERN.