anonym.legal
Назад к блогуТехнические

Проблема ложных срабатываний: почему чистая...

В 2024 году было установлено, что Presidio сгенерировал 13,536 ложных срабатываний имен по 4,434 образцам — помечая местоимения...

March 23, 20268 мин чтения
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Проблема точности 22.7% в производстве

Исследование 2024 года по Microsoft Presidio — открытой системе обнаружения PII, используемой в юридических технологиях, здравоохранении и приложениях для защиты корпоративных данных — показало уровень точности 22.7% для обнаружения имен людей в контексте бизнес-документов.

Точность измеряет правильность положительных идентификаций: какой процент предметов, которые инструмент пометил как "имена людей", на самом деле являются именами людей. При 22.7% примерно 77 из каждых 100 предметов, помеченных как имена людей, являются ложными срабатываниями.

В бенчмарке было зафиксировано 13,536 ложных срабатываний имен по 4,434 образцам документов. Ложные срабатывания включали:

  • Местоимения, помеченные как имена людей ("Я" в начале предложений)
  • Названия судов, помеченные как имена людей ("ASL Scorpio")
  • Названия организаций, помеченные как имена людей ("Deloitte & Touche")
  • Названия стран, помеченные как имена людей ("Аргентина", "Сингапур")

Это не крайние случаи. Это системные паттерны, которые возникают, когда модель NLP общего назначения, обученная на смешанных корпусах, применяется к документам специфической области, где собственные имена появляются в контекстах, которые модель не была обучена различать.

Структура затрат на ложные срабатывания в больших объемах

В юридических и медицинских средах ложные срабатывания не бесплатны. Каждый помеченный предмет требует решения: либо человеческий обзор для подтверждения или отклонения пометки, либо автоматическая обработка, которая оставляет ложное срабатывание некорректированным.

Вариант 1: Человеческий обзор каждого помеченного предмета. При стоимости от $200 до $800 в час для адвоката или специалиста, обзор ложных срабатываний из системы с точностью 22.7% экономически нецелесообразен в больших объемах. Для производства из 10,000 документов с 100 помеченными предметами на документ при 22.7% точности, примерно 77,300 предметов требуют человеческого обзора. При 5 минутах на предмет и $300 в час это составляет 6,442 часа времени на обзор — примерно $1.9 миллиона.

Вариант 2: Пропустить ручной обзор и принять автоматическую обработку. В результате получается производство, где 77% "редактированных" предметов на самом деле не были чувствительными — создавая ответственность за чрезмерное редактирование (содержимое, подлежащее раскрытию, удерживается без оснований), уничтожая полезность документа и потенциально вызывая санкции.

Вариант 3: Пороговые значения. Presidio позволяет настраивать пороговые значения, чтобы уменьшить ложные срабатывания, помечая только предметы выше порога уверенности. Исследование 2024 года по документам медицинской визуализации DICOM показало, что даже с порогом=0.7 — относительно агрессивным фильтром точности — 38 из 39 изображений DICOM все еще имели ложные положительные сущности. Пороговые значения уменьшают, но не устраняют проблему ложных срабатываний для чистого ML-обнаружения.

Почему чистый ML не справляется с документами специфической области

Паттерн ложных срабатываний Presidio отражает фундаментальное ограничение моделей NLP общего назначения в контекстах специфической области:

Юридические документы содержат специализированные собственные имена — названия дел, названия статей, обозначения выставок — которые имеют поверхностные паттерны, схожие с именами людей. Модель, обученная на общем тексте, учится, что заглавные собственные имена часто являются именами людей. Юридический документ содержит сотни заглавных собственных имен, которые не являются именами людей.

Медицинские документы содержат названия лекарств, названия устройств и коды процедур, которые включают последовательности букв, напоминающие сокращения имен. Клинический текст также содержит сокращения ("Pt." для пациента, "Dr." для врача), которые непредсказуемо взаимодействуют с обнаружением имен.

Финансовые документы содержат названия продуктов, названия сущностей и идентификационные коды, которые имеют паттерны, схожие с личными идентификаторами.

Настройка под специфическую область решает эти паттерны, но требует значительных инвестиций в тонкую настройку наборов данных и постоянного обслуживания по мере эволюции типов документов.

Решение с гибридной архитектурой

Проблема ложных срабатываний структурно решаема через гибридное обнаружение, которое отделяет структурированные данные (где regex обеспечивает 100% точность) от контекстных данных (где ML обеспечивает распознавание паттернов с откалиброванной уверенностью).

Regex для структурированных идентификаторов: SSN, номера телефонов, адреса электронной почты, номера кредитных карт, форматы национальных ID, номера банковских счетов. Эти форматы детерминированы — строка либо соответствует паттерну и проходит проверку контрольной суммы, либо не соответствует. Ноль ложных срабатываний для законных реализаций.

NLP для контекстных сущностей: Имена людей, названия организаций, местоположения в неструктурированном тексте. Модели NLP обеспечивают полноту для сущностей, которые не имеют структурных паттернов. Оценка уверенности и требования к контекстным словам уменьшают ложные срабатывания.

Настройка порога для каждого типа сущности: Установка порога уверенности 90% для имен людей при использовании уверенности regex (фактически 100%) для SSN позволяет откалибровать допустимые уровни ложных срабатываний для специфической области. Юридические команды, которые не могут допустить чрезмерного редактирования, устанавливают более высокие пороги; клинические исследовательские группы, максимизирующие полноту деидентификации, устанавливают более низкие.

Результат: значительно более низкие уровни ложных срабатываний, чем по умолчанию в Presidio, при сохранении полноты, которую чистое сопоставление паттернов не может достичь. Для юридических и медицинских организаций, оценивающих инструменты автоматической редакции, компромисс между точностью и полнотой управляем — но только с инструментом, который предоставляет его в качестве настраиваемого параметра, а не фиксированного поведения системы.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.