title: "Ложные срабатывания Presidio: во что они обходятся в юридической сфере и здравоохранении" description: "Бенчмарк 2024 года выявил 13 536 ложных срабатываний при обнаружении имён в Presidio на 4 434 образцах — инструмент помечал местоимения, названия судов и стран как имена людей. Вот что это стоит в юридической среде и здравоохранении." category: technical publishedAt: 2026-03-23 tags:
- уровень ложных срабатываний Presidio
- точность обнаружения ПДн
- стоимость автоматического редактирования
- проверка юридических документов
- гибридное обнаружение ПДн readingTime: 8
Обновлено для 2026 года
Проблема точности: 22,7%
В 2024 году исследование протестировало Microsoft Presidio на деловых файлах. Presidio — инструмент с открытым кодом для работы с ПДн, широко используемый юридическими командами и организациями здравоохранения.
Исследование измерило, как часто Presidio оказывался прав. Из всех элементов, помеченных как имена людей, какова доля реальных имён?
Ответ: 22,7%. Примерно 77 из каждых 100 пометок были ошибочными. Исследование зафиксировало 13 536 ложных пометок на 4 434 тестовых файлах.
Ошибки не были случайными. Они следовали чётким паттернам:
- Местоимения помечались как имена людей («I» в начале предложения)
- Названия судов помечались как имена людей («ASL Scorpio»)
- Названия компаний помечались как имена людей («Deloitte & Touche»)
- Географические термины помечались как имена людей («Аргентина», «Сингапур»)
Ни один из этих случаев не является редким краевым сценарием. Они возникают всякий раз, когда общая NLP-модель встречает специализированный текст. Модель не была создана для различения подобных случаев.
Во что обходятся ложные пометки
В юридической работе и здравоохранении каждая пометка требует реакции. У команд три варианта. Все три сопряжены с реальными затратами.
Вариант 1: человек проверяет каждую пометку. Время юриста и эксперта стоит от 200 до 800 долларов в час. При точности 22,7% объём огромен. В масштабе это нежизнеспособно. О том, как затраты на проверку растут с объёмом, см. «Автоматизация ПДн в e-Discovery и сокращение стоимости юридической проверки».
Вариант 2: пропустить проверку и доверять выводу. Это тоже рискованно. Когда 77% «отредактированных» элементов не являются чувствительными, создаётся правовой риск. Суды штрафовали юристов за избыточное редактирование. Документированные случаи — в статье «Санкции e-Discovery за избыточное редактирование».
Вариант 3: повысить пороговое значение. Presidio позволяет задавать `score_threshold` для отсева слабых пометок. Исследование DICOM 2024 года тестировало порог 0,7 — достаточно высокий. Результат: 38 из 39 DICOM-изображений по-прежнему содержали ложные пометки. Пороги помогают. Но не устраняют первопричину.
Почему общий NLP испытывает трудности
Пробел Presidio обусловлен несоответствием между обучающими данными и реальным использованием.
Юридические файлы насыщены терминами с заглавной буквы. Названия дел, наименования законов и коды приложений выглядят как персональные данные для общей модели. Она их помечает. Большинство из них — не персональные данные.
Медицинские файлы добавляют названия препаратов, коды устройств и клинические сокращения. «Pt.» означает «пациент». «Dr.» — «доктор». Это нарушает обнаружение сущностей непредсказуемым образом.
Финансовые файлы содержат коды продуктов, строки сущностей и идентификаторы счетов, внешне похожие на персональные записи.
Дообучение модели на доменных данных помогает. Но требует времени и усилий для создания и поддержания актуальности.
Как гибридное обнаружение решает проблему
Проблема ложных пометок имеет чёткое решение. Разделите работу по типу данных.
Правила на основе паттернов для структурированных данных. Номера социального страхования, телефонные номера, адреса электронной почты и форматы идентификаторов подчиняются фиксированным правилам. Строка либо соответствует паттерну и проходит проверку контрольной цифры, либо нет. Нулевые ложные срабатывания для валидных наборов правил.
Языковые модели для свободного текста. Имена и фамилии, названия компаний и места в прозе лишены жёсткой структуры. NLP находит их там, где не справляются правила. Оценки достоверности и проверки контекста снижают долю ложных срабатываний.
Настройка оценок по каждому типу. Юридические команды, не допускающие риска избыточного редактирования, устанавливают высокие пороги для нечётких совпадений. Исследовательские команды, нуждающиеся в высоком охвате, устанавливают более низкие. О том, как работают уровни оценок на практике, см. «Бинарное обнаружение ПДн и оценки достоверности для соответствия требованиям».
В результате ошибок значительно меньше, чем при настройках Presidio по умолчанию. Охват сохраняется там, где одних правил было бы недостаточно.
Для юридических команд и специалистов здравоохранения ключевой вопрос не в том, существуют ли ложные срабатывания. В NLP-системах они всегда есть. Вопрос в том, позволяет ли инструмент задавать, измерять и документировать этот компромисс.