Налог ложных срабатываний на инструменты обнаружения PII
Обновлено в 2026 году
Большинство инструментов PII оцениваются по полноте обнаружения (recall): какую долю реального PII инструмент находит. Но точность (precision) не менее важна: какую долю предупреждений составляет реальный PII.
Низкая точность стоит дорого. Система с 95% полнотой и 22,7% точностью находит большую часть PII. Но на каждую реальную PII-сущность она генерирует 3,4 ложных предупреждения. В наборе данных с 10 000 реальных PII-сущностей такая система создаёт около 44 000 предупреждений, из которых около 34 000 — ошибочные. Каждое требует времени на проверку или приводит к избыточному редактированию.
Это налог ложных срабатываний — накладные расходы, которые несёт любая команда при работе с высокоохватной, низкоточной PII-системой в масштабе. Прямые затраты — время проверяющих. Косвенные — хуже: избыточно отредактированные документы скрывают полезные данные, замедляют работу и подрывают доверие к инструменту.
Что показывает Issue #1071 Presidio
Обсуждение #1071 на GitHub Microsoft Presidio (2024) фиксирует конкретный паттерн. Распознаватели TFN (Tax File Number) и PCI используют валидацию контрольной суммы. Числа, прошедшие контрольную сумму, получают показатель 1,0 — максимальную уверенность, — без учёта контекста PII.
Первопричина: проверка контекстных слов выполняется после шага контрольной суммы, а не до. Число, прошедшее контрольную сумму, получает максимальный показатель независимо от окружающего текста. В финансовых таблицах, научных наборах данных или лог-файлах это наводняет вывод ложными предупреждениями. Фильтрация по пороговому значению не помогает — показатели уже на максимуме.
Второй паттерн — в Issue #999. Сегментация немецких слов ломается на сложных существительных. Слова вроде Bundesbehörde (федеральный орган) могут разбиваться некорректно и помечаться как имена людей — добавляя шум в любой немецкоязычный документ.
Проблема точности 22,7%
Alvaro et al. (2024) тестировали Presidio на смешанноязычных корпоративных наборах данных и обнаружили точность 22,7%. В реальных документах менее одного из четырёх предупреждений Presidio является реальной PII-сущностью.
Контекстно-зависимое оценивание
Решение — контекстно-зависимая оценка уверенности. Вместо оценки только по совпадению паттерна система повышает уверенность при наличии контекстных слов рядом с совпадением и снижает при их отсутствии.
Для обнаружения TFN: слова «tax file number», «TFN» или «Australian tax» рядом с числом повышают его показатель. Число, прошедшее контрольную сумму, но без контекстных слов, получает показатель ниже порога проверки. Ложное предупреждение подавляется.
Для кросс-лингвальных шумов: типы сущностей, привязанные к конкретным странам, могут ограничиваться документами на соответствующем языке. Детектор TFN, ограниченный английским и австралийским английским, устраняет шум. Его применение к немецкому контенту без такого ограничения и является источником проблемы.
Третий уровень в гибридной системе — трансформерная модель, читающая полное контекстное окно вокруг каждого кандидата. Она различает «Иван Д., идентификатор пациента 12345» и код продукта, совпадающий с паттерном имени. Контекст разрешает неоднозначность, недоступную регулярным выражениям и контрольным суммам.