Проблема точности Presidio: 22,7%
Ложные срабатывания при обнаружении персональных данных наносят реальный ущерб. Когда 77,3% того, что инструмент помечает как «имена людей», именами не являются, вы не защищаете конфиденциальность. Вы портите данные.
Бенчмарк 2024 года протестировал модель NER по умолчанию Microsoft Presidio на деловых документах. Тест охватывал финансовые отчёты, письма клиентам, документацию по продуктам и обращения в службу поддержки. Результат: точность обнаружения имён составила 22,7%.
Эта цифра говорит сама за себя. Из каждых 100 помеченных элементов 23 — реальные имена людей. Остальные 77 — ложные срабатывания: названия продуктов, торговые марки или наименования городов.
Три из четырёх обнаружений ошибочны. Это не незначительная проблема калибровки. Для работы с деловыми документами инструмент попросту неисправен.
Почему это происходит
Presidio по умолчанию использует модель spaCy en_core_web_lg. Эта модель обучалась на новостных текстах. В новостях большинство имён собственных — это реальные люди или места.
Деловые документы устроены иначе.
Названия продуктов, похожие на имена людей. «Apple iPhone 15 Pro shipment records» помечается как PERSON. Так же — «Samsung Galaxy Tab» и «Cisco Meraki deployment».
Корпоративные термины с частями, похожими на имена. В «Johnson Controls results» слово «Johnson» помечается как PERSON. «Goldman Sachs portfolio» вызывает ту же ошибку.
Топонимы, запускающие обнаружение имён. «Victoria Harbour project» помечает «Victoria» как PERSON. «Santiago hub» помечает «Santiago» аналогичным образом.
Модели не хватает контекста, чтобы отличить «Apple» (компания) от «Apple Smith» (человек). Этот пробел — корень большинства ложных срабатываний. Новостные тексты научили её считать имена собственные людьми или местами. Деловые тексты постоянно нарушают это правило.
Последствия для работы
Аналитическая компания использовала Presidio для очистки опросов клиентов перед их распространением. Аудит выявил четыре проблемы. Во-первых, в 40% опросов названия продуктов были ошибочно удалены. Во-вторых, топонимы были вырезаны из каждого ответа. В-третьих, упоминания брендов были стёрты из аналитического набора. В-четвёртых, оказалось невозможным оценить тональность отзывов о конкретных продуктах.
Аналитическая группа получила редактированный текст с удалёнными всеми упоминаниями продуктов. В исходном опросе были названы iPhone Pro и зарядное устройство Apple. Этот смысл был утерян.
Компания не улучшила защиту конфиденциальности. Она испортила данные, не получив взамен соответствия требованиям. После аудита Presidio был заменён.
См. наш обзор соответствия требованиям о том, как качество обнаружения влияет на регуляторный статус.
Лучший подход: гибридное обнаружение
Эта проблема не уникальна для Presidio. Токен-уровневый NER без учёта контекста всегда будет с ней сталкиваться. Решение — контекстно-зависимое обнаружение.
Почему помогают трансформеры: Модель вроде XLM-RoBERTa читает предложение целиком. «Apple announced its earnings» → Apple — это компания. «Apple Smith joined the team» → Apple — это имя. Контекст подсказывает, что есть что.
Это повышает точность при сохранении высокой полноты. Сравнение приведено ниже.
| Подход | Точность | Полнота |
|---|---|---|
| Presidio (NER по умолчанию) | 22,7% | ~85% |
| Только регулярные выражения | ~95% | ~40% |
| Гибрид (Regex + NLP + Transformer) | ~85% | ~80% |
Гибридный подход достигает точности 85%. Это означает уровень ложных срабатываний 15% — значительно лучше, чем 77,3%. Для деловых документов этот разрыв принципиален.
Гибридный стек состоит из четырёх шагов:
-
Слой регулярных выражений: находит структурированные идентификаторы — электронные адреса, номера телефонов, SSN, IBAN. Форматы фиксированы, поэтому ложные срабатывания редки. Выполняется первым.
-
NLP-слой (spaCy): стандартный NER для людей, компаний и мест. Высокая полнота, более низкая точность.
-
Слой трансформера (XLM-RoBERTa): переоценивает каждый результат NLP с учётом контекста всего предложения. «Apple» в контексте продукта теряет оценку сущности. «John» в тексте жалобы её получает.
-
Порог достоверности: в результат попадают только совпадения выше заданного значения. Повысьте порог для аналитических задач. Снизьте для деидентификации по HIPAA.
Результаты после перехода
Аналитическая компания перешла на гибридное обнаружение. Улучшения оказались очевидными. Ложные срабатывания по названиям продуктов снизились с 40% до 3%. Ложные срабатывания по топонимам упали почти до нуля. Полнота обнаружения реальных персональных данных сохранилась на уровне ~82% — немного ниже прежних 85%, но точность значительно выросла.
Опросы снова стали пригодны для анализа. «iPhone», «Apple», «Samsung» и «Chicago» остались в тексте. Имена клиентов в контексте жалоб были корректно удалены.
Гибридное обнаружение требует больше вычислительных ресурсов. Для больших заданий время выполнения несколько увеличивается. Для большинства деловых задач выигрыш в точности оправдывает это. Компания смогла снова проводить анализ — в этом и был весь смысл данных опроса.
Подробнее о нашем подходе к обнаружению — в обзоре безопасности.
Когда высокий уровень ложных срабатываний допустим
Некоторые сценарии предполагают приоритет полноты над точностью.
HIPAA Safe Harbor: пропустить реальное совпадение означает нарушение. Уровень ложных срабатываний в 10% приемлем, если реальные PHI никогда не пропускаются. Избыточное удаление безопаснее, чем недостаточное.
Юридическая проверка: пропуск привилегированного контакта может повлечь потерю привилегии. Ложные срабатывания требуют проверки, но не создают ответственности.
Бизнес-аналитика: избыточное удаление портит данные без выигрыша в соответствии требованиям. Здесь точность важнее. Используйте гибридный подход с высоким порогом достоверности. Он сохраняет в тексте названия брендов и топонимы. Удаляются только реальные имена людей.
Правильный баланс зависит от вашего сценария. Инструменты с настраиваемым порогом дают вам контроль. Ни одно значение по умолчанию не подходит для всех контекстов.
См. наш FAQ для ответов на распространённые вопросы о порогах и режимах обнаружения.
Заключение
Точность 22,7% означает, что 3 из 4 обнаружений ошибочны. Для деловых документов это делает результат непригодным для анализа. Кроме того, создаётся ложная уверенность в соответствии требованиям.
Гибридное обнаружение устраняет эту проблему. Оно сочетает регулярные выражения, NLP и оценку трансформером. Данные остаются полезными после анонимизации. Реальные имена людей удаляются. Торговые марки, топонимы и идентификаторы продуктов остаются.
Если вы отказались от Presidio из-за проблем с ложными срабатываниями — вот путь вперёд. Не новая конфигурация той же модели. Другая архитектура, созданная для деловых документов.
Источники
Priva PII Benchmark 2024: Оценка точности Presidio. VERIFIED-EXTERNAL.
Microsoft Presidio: Поддерживаемые сущности и архитектура модели. VERIFIED-EXTERNAL.
spaCy: Обучающие данные и ограничения en_core_web_lg. VERIFIED-EXTERNAL.