Presidio 22,7% precizitātes problēma

Viltus pozitīvi rezultāti PII noteikšanā rada reālu kaitējumu. Ja 77,3% no tā, ko jūsu rīks atzīmē kā "personu vārdus", nav īsti vārdi, jūs neaizsargājat privātumu. Jūs sabojājat datus.

gada etalonmērs testēja Microsoft Presidio noklusējuma NER modeli biznesa dokumentos. Tests aptvēra finanšu pārskatus, klientu vēstules, produktu dokumentus un atbalsta biļetes. Rezultāts: 22,7% precizitāte vārdu noteikšanai.

Šis skaitlis ir pārsteidzošs. No katriem 100 atzīmētajiem elementiem 23 ir īsti individuālie vārdi. Pārējie 77 ir viltus pozitīvi rezultāti — produktu etiķetes, zīmolu termini vai pilsētu nosaukumi.

Trīs no četriem atklājumiem ir nepareizi. Tas nav neliels kalibrācijas jautājums. Tas ir bojāts rīks biznesa dokumentu darbam.

Kāpēc tas notiek

Presidio pēc noklusējuma izmanto spaCy modeli en_core_web_lg. Šis modelis apguva zināšanas no ziņu tekstiem. Ziņās lielākā daļa pareizrakstības vārdu ir īsti cilvēki vai vietas.

Biznesa dokumenti ir atšķirīgi.

Produktu etiķetes, kas izskatās kā individuālie vārdi. "Apple iPhone 15 Pro nosūtīšanas ieraksti" tiek atzīmēti kā PERSON. Tāpat arī "Samsung Galaxy Tab" un "Cisco Meraki izvietošana".

Uzņēmumu termini ar vārdam līdzīgām daļām. Frāzē "Johnson Controls rezultāti" vārds "Johnson" tiek atzīmēts kā PERSON. "Goldman Sachs portfelis" izraisa to pašu kļūdu.

Atrašanās vietas etiķetes, kas aktivizē personas noteikšanu. "Victoria Harbour projekts" atzīmē "Victoria" kā PERSON. "Santiago centrs" atzīmē "Santiago" tādā pašā veidā.

Modelim trūkst konteksta, lai atšķirtu "Apple" (uzņēmums) no "Apple Smith" (persona). Šī plaisa ir lielākās daļas viltus pozitīvo rezultātu sakne. Ziņu teksts iemācīja tam uzskatīt pareizrakstības vārdus par cilvēkiem vai vietām. Biznesa teksts šo noteikumu pārkāpj visu laiku.

Lejupstraumes efekts

Datu uzņēmums izmantoja Presidio, lai pirms koplietošanas attīrītu klientu aptaujas. Audits atklāja četras problēmas. Pirmkārt, 40% aptauju produktu etiķetes tika kļūdaini noņemtas. Otrkārt, pilsētu etiķetes tika izdzēstas no katras atbildes. Treškārt, zīmolu pieminēšana tika noslaucīta no analīzes kopas. Ceturtkārt, noskaņojumu par konkrētiem produktiem nevarēja nolasīt.

Analīzes komanda saņēma rediģētu tekstu ar visām produktu atsaucēm noņemtām. Aptaujā sākotnēji bija nosaukts iPhone Pro un Apple lādētājs. Šī nozīme bija pazudusi.

Uzņēmums neaizsargāja privātumu labāk. Tas saboja datus bez atbilstības ieguvuma. Presidio tika aizstāts pēc audita.

Skatiet mūsu atbilstības pārskatu, lai uzzinātu, kā noteikšanas kvalitāte ietekmē jūsu regulatīvo stāvokli.

Labāka pieeja: hibrīdā noteikšana

Problēma nav unikāla Presidio. NER bez konteksta marķiera līmenī vienmēr būs šī problēma. Labojums ir kontekstjutīga noteikšana.

Kāpēc transformatori palīdz: Modelis kā XLM-RoBERTa lasa visu teikumu. "Apple paziņoja savus ienākumus" — Apple ir uzņēmums. "Apple Smith pievienojās komandai" — Apple ir vārds. Konteksts jums pasaka, kurš ir kurš.

Tas uzlabo precizitāti, vienlaikus saglabājot augstu atcerēšanās spēju. Skatiet salīdzinājumu zemāk.

Pieeja	Precizitāte	Atcerēšanās
Presidio noklusējuma NER	22,7%	~85%
Tikai regulārās izteiksmes	~95%	~40%
Hibrīds (regulārās izteiksmes + NLP + transformators)	~85%	~80%

Hibrīdā pieeja sasniedz 85% precizitāti. Tas nozīmē 15% viltus pozitīvo rezultātu īpatsvaru. Daudz labāk nekā 77,3%. Biznesa dokumentiem šī starpība ir svarīga.

Hibrīdajam stekam ir četri soļi:

Regulāro izteiksmju slānis: Atrod strukturētos ID — e-pastus, tālruņu numurus, SSN, IBAN. Formāti ir fiksēti, tāpēc viltus pozitīvie rezultāti ir reti. Tas darbojas pirmais.
NLP slānis (spaCy): Standarta NER cilvēkiem, uzņēmumiem un vietām. Augsta atcerēšanās, zemāka precizitāte.
Transformatora slānis (XLM-RoBERTa): Pārvērtē katru NLP rezultātu, izmantojot pilna teikuma kontekstu. "Apple" produkta kontekstā zaudē savu entītiju punktu. "John" sūdzības tekstā to iegūst.
Uzticamības slieksnis: Tikai hiti, kas pārsniedz noteiktu punktu skaitu, nokļūst izvadē. Paceliet slieksni analītikas lietošanas gadījumiem. Pazemina to HIPAA deidentiifikācijai.

Rezultāti pēc pārslēgšanās

Analītikas uzņēmums pārslēdzās uz hibrīdo noteikšanu. Ieguvumi bija skaidri. Produktu etiķešu viltus pozitīvie rezultāti samazinājās no 40% līdz 3%. Pilsētu etiķešu viltus pozitīvie rezultāti samazinājās gandrīz līdz nullei. Reālo identitāšu atcerēšanās palika ~82%, nedaudz samazinoties no 85%, taču precizitāte ievērojami uzlabojās.

Aptaujas kļuva atkal izmantojamas. "iPhone", "Apple", "Samsung" un "Chicago" palika tekstā. Klientu vārdi sūdzību kontekstos tika pareizi noņemti.

Hibrīdā noteikšana prasa vairāk skaitļošanas resursu. Lieliem darbiem izpildes laiki ir nedaudz garāki. Lielākajai daļai biznesa lietošanas gadījumu precizitātes ieguvums ir tā vērts. Uzņēmums varēja atkal veikt analīzi. Tā bija aptaujas datu visa jēga.

Lasiet par mūsu noteikšanas pieeju drošības pārskatā.

Kad augsts viltus pozitīvo rezultātu īpatsvars ir pieņemams

Dažos gadījumos atcerēšanās prioritizē precizitāti.

HIPAA Safe Harbor: Patiesa pozitīvā rezultāta nepamanīšana ir pārkāpums. 10% viltus pozitīvo rezultātu īpatsvars ir labi, ja reāls PHI nekad netiek palaists garām. Pārmērīga noņemšana ir drošāka nekā nepietiekama.

Juridiskā pārskatīšana: Priviliģēta kontakta nepamanīšana var atcelt privilēģiju. Viltus pozitīvie rezultāti ir jāpārskata, taču tie nerada atbildību.

Biznesa analītika: Pārmērīga noņemšana sabojā datus bez atbilstības ieguvuma. Precizitāte šeit ir svarīgāka. Izmantojiet hibrīdo pieeju ar augstu uzticamības slieksni. Tas saglabā zīmolu etiķetes un pilsētu terminus izvadē. Tiek noņemti tikai faktisko personu vārdi.

Pareizais līdzsvars ir atkarīgs no jūsu lietošanas gadījuma. Rīki, kas ļauj iestatīt slieksni, dod jums kontroli. Neviens noklusējums nedarbojas katrā kontekstā.

Skatiet mūsu BUJ, lai atrastu izplatītos jautājumus par sliekšņiem un noteikšanas režīmiem.

Secinājums

22,7% precizitātes īpatsvars nozīmē, ka 3 no 4 atklājumiem ir nepareizi. Biznesa dokumentiem tas padara izvadi neizmantojamu analīzei. Tas arī rada nepamatotu pārliecību par atbilstību.

Hibrīdā noteikšana to labo. Tā apvieno regulārās izteiksmes, NLP un transformatora vērtēšanu. Dati paliek noderīgi pēc anonimizācijas. Īsti personu vārdi tiek noņemti. Zīmolu etiķetes, pilsētu termini un produktu identifikatori paliek.

Ja atstājāt Presidio viltus pozitīvo rezultātu problēmu dēļ, šis ir ceļš uz priekšu. Nevis tā paša modeļa jauna konfigurācija. Cita arhitektūra, kas veidota biznesa dokumentu kontekstiem.

Avoti

Priva PII etalonmērs 2024: Presidio precizitātes novērtējums. PĀRBAUDĪTS-ĀRĒJS.

Microsoft Presidio: Atbalstītās entītijas un modeļu arhitektūra. PĀRBAUDĪTS-ĀRĒJS.

spaCy: en_core_web_lg apmācības dati un ierobežojumi. PĀRBAUDĪTS-ĀRĒJS.

Saistītie Raksti

Tehniskā

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

Presidio 22,7% precizitātes problēma