Невидимый налог на соблюдение
Инструменты обнаружения PII обычно оцениваются по полноте — какой процент реальных PII инструмент поймал? Но точность — какой процент обнаружений инструмента является реальными PII — определяет операционные затраты на использование инструмента.
Система с 95% полнотой и 22,7% точностью ловит 95% реальных PII, но на каждую реальную сущность PII, которую она обнаруживает, она помечает 3,4 ложных срабатывания. В наборе данных, содержащем 10 000 реальных сущностей PII, эта система генерирует 10 000 / 0,227 ≈ 44 000 общих обнаружений, из которых 34 000 — ложные срабатывания, требующие ручной проверки или вызывающие чрезмерное редактирование.
Это "налог на ложные срабатывания": операционные издержки, налагаемые на любую организацию, которая пытается использовать систему обнаружения PII с высокой полнотой и низкой точностью в производственном масштабе. Налог на ложные срабатывания имеет прямые затраты — время ручного рецензента — и косвенные затраты: чрезмерно отредактированные документы скрывают соответствующую информацию, замедляют рабочие процессы и снижают доверие к автоматизированной системе.
Что документирует проблема Presidio #1071
Обсуждение на GitHub Microsoft Presidio #1071 (2024) документирует конкретный и систематический шаблон ложных срабатываний. Распознаватели TFN (номер налогового файла) и PCI с проверкой контрольной суммы выдают оценки уверенности 1.0 — максимальная уверенность — для не-PII номеров, которые случайно проходят алгоритм проверки контрольной суммы.
Проблема в дизайне: проверка слов в контексте (проверка, что такие слова, как "номер налогового файла" или "TFN", появляются рядом с обнаруженной сущностью) применяется после шага проверки контрольной суммы, а не до. Номера, которые проходят проверку контрольной суммы, получают оценку 1.0 независимо от контекста. В документах, содержащих числовые данные — финансовые таблицы, научные наборы данных, журналы — это приводит к потоку ложных срабатываний, которые не могут быть отфильтрованы только по порогу оценки.
Отдельный шаблон из сообщества Presidio (проблема GitHub #999): сегментация немецких слов создает ложные срабатывания для сущностей имен и местоположений. Немецкие составные слова, такие как "Bundesbehörde" (федеральный орган) или общие немецкие термины, могут быть неправильно сегментированы и обнаружены как личные имена.
Проблема 22,7% точности
Alvaro и др. (2024) оценили настройки по умолчанию Presidio на смешанных языковых корпоративных наборах данных и обнаружили 22,7% точности — это означает, что в реальных корпоративных документах менее 1 из 4 обнаружений Presidio соответствует реальным PII. Эта цифра согласуется с опытом практиков: Presidio, настроенный на полноту, производит непригодный шум в производстве.
Исследование 2024 года, изучающее метаданные медицинской визуализации DICOM, показало, что даже при score_threshold=0.7, 38 из 39 DICOM изображений все еще имели ложные положительные сущности. Порог, который устраняет ложные срабатывания для одного типа документа, создает ложные отрицания для другого.
Проблема точности не уникальна для Presidio — она отражает врожденную сложность создания детектора PII с высокой полнотой, который также достигает высокой точности для различных типов документов, языков и форматов данных. Проблема в том, что любой фиксированный порог представляет собой компромисс: высокий порог снижает ложные срабатывания, но увеличивает ложные отрицания; низкий порог увеличивает полноту, но раздувает ложные срабатывания.
Решение с учетом контекста
Альтернативой настройке порога является оценка уверенности с учетом контекста. Вместо того чтобы назначать уверенность, основываясь исключительно на совпадении шаблона сущности, оценка с учетом контекста увеличивает уверенность, когда слова контекста появляются рядом с совпадением, и подавляет ложные срабатывания, когда контекста нет.
Для обнаружения TFN: оценка увеличивается, когда "номер налогового файла", "TFN" или "австралийский налог" появляются в пределах настраиваемого окна. Номер, проходящий проверку контрольной суммы TFN без близлежащих слов контекста, получает сниженный балл уверенности, который падает ниже порога проверки.
Для межъязыковых ложных срабатываний: типы сущностей, специфичные для определенных языков (немецкий налоговый идентификатор, французский NIR, австралийский TFN), могут быть ограничены документами, обнаруженными как этот язык. Детектор TFN, применяемый только к английским и австралийским английским документам, устраняет систематические ложные срабатывания, которые возникают, когда тот же детектор работает с немецкими документами.
Третий уровень гибридного обнаружения — модели на основе трансформеров с учетом контекста — добавляет еще один слой: модель оценивает весь окружающий контекст, чтобы отличить настоящее личное имя ("Джон Смит, ID пациента 12345") от ложного срабатывания (идентификатор продукта, который случайно совпадает с шаблоном имени).
Источники: