Actualitzat per al 2026
El problema de precisió del 22,7%
Un estudi de 2024 va provar Microsoft Presidio en fitxers empresarials. Presidio es una eina de PII de codi obert. Els equips legals i els grups de salut l'utilitzen amplament.
L'estudi va mesurar amb quina frequencia Presidio tenia raó. De tots els elements que va marcar com a noms de persona, quants eren realment noms de persona?
La resposta va ser el 22,7%. Aproximadament 77 de cada 100 marques eren incorrectes. L'estudi va comptar 13.536 falses marques en 4.434 fitxers de mostra.
Els errors no eren aleatoris. Seguien patrons clars:
- Pronoms marcats com a persones ("I" al principi d'una frase)
- Etiquetes de vaixells marcades com a persones ("ASL Scorpio")
- Etiquetes d'empreses marcades com a persones ("Deloitte & Touche")
- Termes de países marcats com a persones ("Argentina", "Singapore")
Cap d'aquests son casos marginals rars. Apareixen sempre que un model NLP general s'enfronta a text específic d'un domini. El model no va ser creat per distingir-los.
El que costen les falses marques
En el treball legal i sanitari, cada marca necessita una resposta. Els equips s'enfronten a tres opcions. Totes tres tenen costos reals.
Opció 1: Un huma comprova cada marca. El temps d'advocats i experts costa entre 200 i 800 dolars per hora. Amb una precisió del 22,7%, el volum es enorme. Aixo no es viable a escala. Vegeu Automatització de PII per a e-discovery i reducció del cost de revisió legal per saber com els costos de revisió creixen amb el volum.
Opció 2: Ometre la revisió i confiar en la sortida. Aixo tambe es arriscat. Quan el 77% dels elements "redactats" no son sensibles, es crea risc legal. Els tribunals han multat advocats per sobreredacció. Vegeu Sancions per sobreredacció en e-discovery per a casos documentats.
Opció 3: Augmentar el llindar de puntuació. Presidio permet als usuaris establir un score_threshold per eliminar les marques febles. Un estudi DICOM de 2024 va provar aixo a 0,7 — un nivell bastant alt. El resultat: 38 de 39 imatges DICOM encara tenien falses marques. Els llindars ajuden. No solucionen la causa arrel.
Per que el NLP general lluita aquí
La bretxa de Presidio prové d'un desajust entre les dades d'entrenament i l'us del món real.
Els fitxers legals estan plens de termes en majuscules. Els noms dels casos, els títols de lleis i els codis d'exhibit semblen tots dades personals per a un model general. Els marca. La majoria no son dades personals.
Els fitxers de salut afegeixen noms de medicaments, codis de dispositius i abreviatures clíniques. "Pt." significa Pacient. "Dr." significa Doctor. Aixo dificulta la detecció d'entitats de maneres difícils de predir.
Els fitxers financers tenen codis de producte, cadenes d'entitats i identificadors de compte que comparteixen patrons superficials amb registres personals.
L'ajust fi d'un model amb dades de domini ajuda. Pero porta temps i esforç per construir i mantenir al dia.
Com la detecció híbrida soluciona aixo
El problema de les falses marques te una solució clara. Dividiu la feina per tipus de dades.
Regles de patrons per a dades estructurades. Els numeros de la seguretat social, els numeros de telefon, les adreces de correu electronic i els formats d'identificació segueixen regles fixes. Una cadena o s'ajusta al patró i supera una prova de dígit de verificació, o no. Cap fals positiu per a conjunts de regles valids.
Models de llengua per a text lliure. Els noms i cognoms, les etiquetes d'empreses i les ubicacions en prosa no tenen estructura rígida. El NLP els troba quan les regles no poden. Les puntuacions de confianca i les verificacions de context redueixen la taxa de falses marques.
Configuració de puntuació per tipus per a un control fi. Els equips legals que no es poden arriscar a la sobreredacció estableixen llindars alts per a les coincidencies difuses. Els equips d'investigació que necessiten una alta recuperació n'estableixen de mes baixos. Vegeu Detecció binaria de PII i puntuació de confianca per a la conformitat per saber com funcionen els nivells de puntuació a la practica.
El resultat es molts menys errors que els valors predeterminats de Presidio. La recuperació continua sent sòlida on les regles soles perdrien massa.
Per als equips legals i sanitaris, la pregunta clau no es si existeixen falses marques. Sempre n'hi ha en els sistemes NLP. La pregunta es si l'eina us permet establir, mesurar i documentar l'equilibri.