Проблемот со прецизноста на Presidio: 22,7%
Лажните позитиви при откривањето на PII предизвикуваат вистинска штета. Кога 77,3% од она што вашата алатка го означува како "имиња на лица" не се вистински имиња, не штитите приватност. Ги уништувате податоците.
Бенчмарк од 2024 година го тестираше стандардниот NER модел на Microsoft Presidio на деловни документи. Тестот опфаќаше финансиски извештаи, писма до клиенти, документација за производи и тикети за поддршка. Резултатот: прецизност од 22,7% за откривање на имиња.
Тој број е зачудувачки. За секои 100 означени ставки, 23 се вистински индивидуални имиња. Останатите 77 се лажни позитиви — ознаки на производи, брендови или градови.
Три од четири откривања се погрешни. Тоа не е мало прашање на калибрација. Тоа е сломена алатка за работа со деловни документи.
Зошто се случува ова
Presidio го користи моделот en_core_web_lg на spaCy стандардно. Овој модел учел од новински текст. Во вестите, повеќето сопствени именки се вистински луѓе или места.
Деловните документи се различни.
Ознаки на производи кои изгледаат како индивидуални имиња. "Apple iPhone 15 Pro записи за испорака" се означува како ЛИЦЕ. Исто така "Samsung Galaxy Tab" и "Cisco Meraki распоредување."
Деловни термини со делови слични на имиња. Во "резултати на Johnson Controls", зборот "Johnson" се означува како ЛИЦЕ. "Goldman Sachs портфолио" го предизвикува истата грешка.
Ознаки на локации кои предизвикуваат откривање на лица. "Проект Victoria Harbour" го означува "Victoria" како ЛИЦЕ. "Центар Santiago" го означува "Santiago" на ист начин.
Моделот нема контекст да разликува "Apple" (компанија) од "Apple Smith" (личност). Тој јаз е основата на повеќето лажни позитиви. Новинскиот текст го научил да ги третира сопствените именки како луѓе или места. Деловниот текст ги крши тие правила постојано.
Ефектот надолу по синџирот
Една компанија за податоци го користела Presidio за чистење на анкети на клиенти пред нивно споделување. Ревизија открила четири проблеми. Прво, 40% од анкетите имале погрешно отстранети ознаки на производи. Второ, ознаките на градовите биле избришани од секој одговор. Трето, споменувањата на брендови биле избришани од аналитичкиот сет. Четврто, расположението кон специфични производи не можело да се прочита.
Аналитичкиот тим добил редактиран текст со отстранети сите референци на производи. Анкетата оригинално ги именувала iPhone Pro и Apple полначот. Тоа значење исчезнало.
Фирмата не ја штитела приватноста подобро. Ги уништувала податоците без да добие усогласеност. Presidio бил заменет по ревизијата.
Погледнете го нашиот преглед за усогласеност за тоа како квалитетот на откривање влијае на вашата регулаторна состојба.
Подобар пристап: хибридно откривање
Проблемот не е уникатен за Presidio. NER на ниво на токени без контекст секогаш ќе го има овој проблем. Решението е откривање со свест за контекстот.
Зошто трансформаторите помагаат: Модел како XLM-RoBERTa ја чита целата реченица. "Apple ги соопшти своите приходи" → Apple е фирма. "Apple Smith се придружи на тимот" → Apple е прво име. Контекстот ви кажува кое е кое.
Тоа ја подобрува прецизноста додека ја одржува повратот висок. Погледнете ја споредбата подолу.
| Пристап | Прецизност | Повраток |
|---|---|---|
| Presidio стандарден NER | 22,7% | ~85% |
| Само regex | ~95% | ~40% |
| Хибриден (Regex + NLP + Трансформатор) | ~85% | ~80% |
Хибридниот пристап достигнува прецизност од 85%. Тоа значи стапка на лажни позитиви од 15%. Многу подобро од 77,3%. За деловни документи, овој јаз е важен.
Хибридниот стек има четири чекори:
-
Слој со regex: Наоѓа структурирани ID — е-пошта, телефонски броеви, SSN, IBAN. Форматите се фиксни, така лажните позитиви се ретки. Ова работи прво.
-
NLP слој (spaCy): Стандарден NER за луѓе, фирми и места. Висок повраток, пониска прецизност.
-
Слој со трансформатор (XLM-RoBERTa): Повторно ги оценува секој NLP резултат со користење на целосниот контекст на реченицата. "Apple" во контекст на производ ја губи оценката на ентитет. "Јован" во контекст на жалба ја добива.
-
Праг на доверливост: Само погодоците над поставената оценка поминуваат на излезот. Зголемете го прагот за аналитички случаи на употреба. Намалете го за HIPAA де-идентификација.
Резултати по преминувањето
Аналитичката фирма премина на хибридно откривање. Добивките биле јасни. Лажните позитиви за ознаки на производи паднале од 40% на 3%. Лажните позитиви за ознаки на градови паднале речиси на нула. Вистинскиот повраток на идентитетот останал на ~82%, малку помал од 85%, но прецизноста значително се подобрила.
Анкетите повторно станале употребливи. "iPhone", "Apple", "Samsung" и "Чикаго" останале во текстот. Имињата на клиентите во контексти на жалби биле правилно отстранети.
Хибридното откривање бара повеќе пресметување. За големи задачи, времето за извршување е малку подолго. За повеќето деловни случаи на употреба, добивката во прецизност вреди. Фирмата повторно можела да ја извршува анализата. Тоа бил целиот смисол на анкетните податоци.
Прочитајте за нашиот пристап за откривање во прегледот за безбедност.
Кога се прифатливи висоски стапки на лажни позитиви
Некои случаи го фаворизираат повратокот над прецизноста.
HIPAA Safe Harbor: Пропуштањето на вистински позитив е прекршување. Стапка на лажни позитиви од 10% е прифатлива ако вистинскиот PHI никогаш не се пропушта. Прекумерното отстранување е побезбедно од недоволното отстранување.
Правен преглед: Пропуштање на привилегиран контакт може да ја откаже привилегијата. Лажните позитиви бараат преглед, но не создаваат одговорност.
Деловна аналитика: Прекумерното отстранување ги уништува податоците без добивка за усогласеност. Прецизноста е поважна тука. Користете хибриден пристап со висок праг на доверливост. Ова ги одржува ознаките на брендови и термините за градови во излезот. Само вистинските имиња на лица се отстрануваат.
Вистинската рамнотежа зависи од вашиот случај на употреба. Алатките кои ви дозволуваат да го поставите прагот ви даваат контрола. Ниту еден стандарден стандард не работи за секој контекст.
Погледнете го нашиот ЧПП за чести прашања за прагови и режими на откривање.
Заклучок
Стапка на прецизност од 22,7% значи дека 3 од 4 откривања се погрешни. За деловни документи, тоа го прави излезот неупотреблив за анализа. Исто така дава лажна доверба во однос на усогласеноста.
Хибридното откривање го поправа ова. Комбинира regex, NLP и оценување со трансформатор. Податоците остануваат корисни по анонимизацијата. Вистинските имиња на лица се отстрануваат. Ознаките на брендови, термините за градови и идентификаторите на производи остануваат.
Ако сте го напуштиле Presidio поради проблеми со лажни позитиви, ова е патот напред. Не нова конфигурација на истиот модел. Различна архитектура изградена за контексти на деловни документи.
Извори
Priva PII Benchmark 2024: Евалуација на прецизноста на Presidio. VERIFIED-EXTERNAL.
Microsoft Presidio: Поддржани ентитети и архитектура на моделот. VERIFIED-EXTERNAL.
spaCy: Тренинг податоци и ограничувања на en_core_web_lg. VERIFIED-EXTERNAL.