Presidioren %22,7ko zehaztasun-arazoa
PII detekzioan faltsu-positiboek kalte errealak sortzen dituzte. Zure tresnak "pertsona-izen" gisa markatzen duenaren %77,3 benetako izenak ez direnean, ez zara pribazitatea babesten. Datuak hondatzen ari zara.
2024ko benchmark batek Microsoft Presidioren NER eredu lehenetsiko proba egin zuen negozio-dokumentuetan. Probak finantza-txostenak, bezero-gutunak, produktu-dokumentuak eta laguntza-txartelak hartu zituen kontuan. Emaitza: %22,7ko zehaztasuna izen-detekziorako.
Zenbaki hori deigarria da. Markatutako 100 elementu bakoitzeko, 23 benetako pertsona-izenak dira. Beste 77ak faltsu-positiboak dira - produktu-etiketak, marka-terminoak edo hiri-etiketak.
Lau detekziotik hiru okerrak dira. Hori ez da doikuntza-arazo txiki bat. Negozio-dokumentuetarako tresna hondatua da.
Zergatik Gertatzen Den Hau
Presidiok spaCyren en_core_web_lg eredua erabiltzen du lehenetsita. Eredu honek albiste-testuetan ikasi zuen. Albistetan, izen-berezien gehiengoa benetako pertsonak edo tokiak dira.
Negozio-dokumentuak ezberdinak dira.
Pertsona-izen itxurako produktu-etiketak. "Apple iPhone 15 Pro bidalketaren erregistroak" PERTSONA gisa markatzen da. "Samsung Galaxy Tab" ere bai eta "Cisco Meraki hedapena" ere bai.
Izen-antzerako zatiak dituzten enpresa-terminoak. "Johnson Controls emaitzetan", "Johnson" hitza PERTSONA gisa markatzen da. "Goldman Sachs zorrotegiak" errore bera eragiten du.
Pertsona-detekzioa eragiten duten kokapen-etiketak. "Victoria Harbour proiektua" "Victoria" PERTSONA gisa markatzen du. "Santiago hub" berdin markatzen du "Santiago".
Ereduak ez du testuingururik "Apple" (enpresa) eta "Apple Smith" (pertsona) bereizteko. Hutsune hori da faltsu-positibo gehienen erroa. Albiste-testuak izen-bereziak pertsona edo toki gisa tratatzea irakatsi dio. Negozio-testuak arau hori askotan hausten du.
Ondoriozko Eragina
Datu-enpresa batek Presidio erabili zuen bezero-inkestak garbitzeko partekatu aurretik. Auditoretzak lau arazo aurkitu zituen. Lehenenik, inkesten %40k produktu-etiketak oker kendurik zituen. Bigarrenik, hiri-etiketak erantzun guztietatik kendu ziren. Hirugarrenik, marka-aipamenak analisi-multzotik ezabatu ziren. Laugarrenik, produktu zehatzen inguruko sentimendua ezin zen irakurri.
Analisi-taldeak erreferentzia produktu guztiak kendurik zituen testua jaso zuen. Inkestak hasiera batean iPhone Pro eta Apple kargagailua aipatzen zituen. Esanahi hori joan zen.
Enpresa ez zen pribazitatea hobeto babesten ari. Datuak apurtzen ari zen betetzerik lortu gabe. Auditoretzaren ondoren Presidio ordezkatu zen.
Ikusi gure betetze-ikuspegi orokorra detekzio-kalitateak zure arauzko egoeran nola eragiten duen jakiteko.
Ikuspegia Hobea: Detekzio Hibridoa
Arazoa ez da Presidioari soilik dagokion. Testuingururik gabeko token-mailako NER-k beti izango du arazo hau. Konponketa testuinguru-jakitun detekzioa da.
Zergatik laguntzen duten transformadoreak: XLM-RoBERTa bezalako eredu batek esaldi osoa irakurtzen du. "Apple bere irabaziak iragarri zituen" - Apple enpresa bat da. "Apple Smith taldean sartu zen" - Apple izen bat da. Testuinguruak erakusten du zein den.
Horrek zehaztasuna hobetzen du gogora-ekarraldiak gora mantentzen diren bitartean. Ikusi beheko konparaketa.
| Ikuspegia | Zehaztasuna | Gogora-ekarraldia |
|---|---|---|
| Presidio NER lehenetsita | %22,7 | ~%85 |
| Regex soilik | ~%95 | ~%40 |
| Hibridoa (Regex + NLP + Transformadorea) | ~%85 | ~%80 |
Ikuspegi hibridoak %85eko zehaztasuna lortzen du. Horrek %15eko faltsu-positibo-tasa esan nahi du. %77,3 baino askoz hobea. Negozio-dokumentuetarako, hutsune honek garrantzia du.
Pilak lau urrats ditu:
-
Regex geruza: ID egituratuak aurkitzen ditu - posta elektronikoak, telefono-zenbakiak, SSNak, IBANak. Formatuak finkoak dira, beraz faltsu-positiboak arraroak dira. Hau lehenengo exekutatzen da.
-
NLP geruza (spaCy): Pertsona, enpresa eta tokietarako NER estandarra. Gogora-ekarraldia handia, zehaztasun txikiagoa.
-
Transformadore geruza (XLM-RoBERTa): NLP emaitza bakoitza esaldi-testuinguru osoa erabiliz berriro puntuatzen du. "Apple" produktu-testuinguruan entitate-puntuazioa galtzen du. "John" kexu-testuan irabaztzen du.
-
Konfiantza-atalasea: Ezarritako puntuazio gainetik dauden emaitzak soilik igarotzen dira irteerara. Atalasea igotzen da analitika-erabilera-kasurako. Jaisten da HIPAA de-identifikaziorako.
Aldatu Ondorengo Emaitzak
Analitika-enpresak detekzio hibridora aldatu zen. Irabaziak argiak ziren. Produktu-etiketen faltsu-positiboak %40tik %3ra jaitsi ziren. Hiri-etiketen faltsu-positiboak ia zerora jaitsi ziren. Benetako identitateen gogora-ekarraldia ~%82an geratu zen, %85etik pixka bat jaitsita, baina zehaztasuna asko hobetu zen.
Inkestak berriro erabilgarri bihurtu ziren. "iPhone", "Apple", "Samsung" eta "Chicago" testuan geratu ziren. Kexu-testuinguruetan bezero-izenak behar bezala kendu ziren.
Detekzio hibridoak konputatze gehiago eskatzen du. Lan handietarako, exekuzio-denborak pixka bat luzeagoak dira. Negozio-erabilera-kasu gehienetarako, zehaztasun-irabazia merezi du. Enpresak berriro analisia egin ahal zuen. Hori zen inkesta-datuen helburu osoa.
Irakurri gure detekzio-ikuspegiaren inguruan segurtasun-ikuspegi orokorrean.
Noiz Diren Onargarriak Faltsu-positibo Tasa Altuak
Zenbait kasutan gogora-ekarraldia zehaztasunaren gainetik dago.
HIPAA Babes Seguruaren Portua: Benetako positibo bat galtzea urraketa da. %10eko faltsu-positibo-tasa ongi dago benetako PHI inoiz ez bada galtzen. Gehiegi kentzea kentzegitik baino seguruagoa da.
Berrikusketa juridikoa: Pribilegiatutako kontaktu bat galtzeak pribilegioari uko egitea ekar dezake. Faltsu-positiboek berrikusketa behar dute baina ez dute erantzukizunik sortzen.
Negozio-analitika: Gehiegi kentzeak datuak haustzen ditu betetze-irabazi gabe. Zehaztasuna garrantzitsuagoa da hemen. Konfiantza-atalase altuarekin ikuspegi hibridoa erabili. Horrek marka-etiketak eta hiri-terminoak irteeran gordetzen ditu. Benetako pertsona-izenak soilik kentzen dira.
Oreka egokia zure erabilera-kasuaren araberakoa da. Atalasea ezartzeko aukera ematen dizuten tresnek kontrola ematen dizute. Testuinguru guztietarako ez dago lehenetsi bakar bat.
Ikusi gure FAQ ataleen eta detekzio-moduen inguruko ohiko galderetarako.
Ondorioa
%22,7ko zehaztasun-tasak esan nahi du 4 detekziotik 3 okerrak direla. Negozio-dokumentuetarako, horrek irteera analisia erabilgaitz egiten du. Gainera, betetzeri buruzko ustezko konfiantza ematen du.
Detekzio hibridoak hau konpontzen du. Regex, NLP eta transformadore-puntuazioa konbinatzen ditu. Datuak anonimizazioaren ondoren erabilgarri gelditzen dira. Benetako pertsona-izenak kentzen dira. Marka-etiketak, hiri-terminoak eta produktu-identifikatzaileak geratzen dira.
Presidio faltsu-positibo arazoek utzi bazaituzte, hau da aurrera egiteko bidea. Ez eredu berdinaren konfigurazio berri bat. Negozio-dokumentuen testuingururako eraikitako arkitektura ezberdina.
Iturriak
Priva PII Benchmark 2024: Presidio Precision Evaluation. EGIAZTATU-KANPOKO.
Microsoft Presidio: Onartutako entitateak eta eredu-arkitektura. EGIAZTATU-KANPOKO.
spaCy: en_core_web_lg prestakuntza-datuak eta mugak. EGIAZTATU-KANPOKO.