anonym.legal
Назад к блогуТехнические

Налог на ложные срабатывания: почему проблема...

Проблема #1071 на GitHub Presidio документирует систематические ложные срабатывания.

April 3, 20268 мин чтения
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Невидимый налог на соблюдение

Инструменты обнаружения PII обычно оцениваются по полноте — какой процент реальных PII инструмент поймал? Но точность — какой процент обнаружений инструмента является реальными PII — определяет операционные затраты на использование инструмента.

Система с 95% полнотой и 22,7% точностью ловит 95% реальных PII, но на каждую реальную сущность PII, которую она обнаруживает, она помечает 3,4 ложных срабатывания. В наборе данных, содержащем 10 000 реальных сущностей PII, эта система генерирует 10 000 / 0,227 ≈ 44 000 общих обнаружений, из которых 34 000 — ложные срабатывания, требующие ручной проверки или вызывающие чрезмерное редактирование.

Это "налог на ложные срабатывания": операционные издержки, налагаемые на любую организацию, которая пытается использовать систему обнаружения PII с высокой полнотой и низкой точностью в производственном масштабе. Налог на ложные срабатывания имеет прямые затраты — время ручного рецензента — и косвенные затраты: чрезмерно отредактированные документы скрывают соответствующую информацию, замедляют рабочие процессы и снижают доверие к автоматизированной системе.

Что документирует проблема Presidio #1071

Обсуждение на GitHub Microsoft Presidio #1071 (2024) документирует конкретный и систематический шаблон ложных срабатываний. Распознаватели TFN (номер налогового файла) и PCI с проверкой контрольной суммы выдают оценки уверенности 1.0 — максимальная уверенность — для не-PII номеров, которые случайно проходят алгоритм проверки контрольной суммы.

Проблема в дизайне: проверка слов в контексте (проверка, что такие слова, как "номер налогового файла" или "TFN", появляются рядом с обнаруженной сущностью) применяется после шага проверки контрольной суммы, а не до. Номера, которые проходят проверку контрольной суммы, получают оценку 1.0 независимо от контекста. В документах, содержащих числовые данные — финансовые таблицы, научные наборы данных, журналы — это приводит к потоку ложных срабатываний, которые не могут быть отфильтрованы только по порогу оценки.

Отдельный шаблон из сообщества Presidio (проблема GitHub #999): сегментация немецких слов создает ложные срабатывания для сущностей имен и местоположений. Немецкие составные слова, такие как "Bundesbehörde" (федеральный орган) или общие немецкие термины, могут быть неправильно сегментированы и обнаружены как личные имена.

Проблема 22,7% точности

Alvaro и др. (2024) оценили настройки по умолчанию Presidio на смешанных языковых корпоративных наборах данных и обнаружили 22,7% точности — это означает, что в реальных корпоративных документах менее 1 из 4 обнаружений Presidio соответствует реальным PII. Эта цифра согласуется с опытом практиков: Presidio, настроенный на полноту, производит непригодный шум в производстве.

Исследование 2024 года, изучающее метаданные медицинской визуализации DICOM, показало, что даже при score_threshold=0.7, 38 из 39 DICOM изображений все еще имели ложные положительные сущности. Порог, который устраняет ложные срабатывания для одного типа документа, создает ложные отрицания для другого.

Проблема точности не уникальна для Presidio — она отражает врожденную сложность создания детектора PII с высокой полнотой, который также достигает высокой точности для различных типов документов, языков и форматов данных. Проблема в том, что любой фиксированный порог представляет собой компромисс: высокий порог снижает ложные срабатывания, но увеличивает ложные отрицания; низкий порог увеличивает полноту, но раздувает ложные срабатывания.

Решение с учетом контекста

Альтернативой настройке порога является оценка уверенности с учетом контекста. Вместо того чтобы назначать уверенность, основываясь исключительно на совпадении шаблона сущности, оценка с учетом контекста увеличивает уверенность, когда слова контекста появляются рядом с совпадением, и подавляет ложные срабатывания, когда контекста нет.

Для обнаружения TFN: оценка увеличивается, когда "номер налогового файла", "TFN" или "австралийский налог" появляются в пределах настраиваемого окна. Номер, проходящий проверку контрольной суммы TFN без близлежащих слов контекста, получает сниженный балл уверенности, который падает ниже порога проверки.

Для межъязыковых ложных срабатываний: типы сущностей, специфичные для определенных языков (немецкий налоговый идентификатор, французский NIR, австралийский TFN), могут быть ограничены документами, обнаруженными как этот язык. Детектор TFN, применяемый только к английским и австралийским английским документам, устраняет систематические ложные срабатывания, которые возникают, когда тот же детектор работает с немецкими документами.

Третий уровень гибридного обнаружения — модели на основе трансформеров с учетом контекста — добавляет еще один слой: модель оценивает весь окружающий контекст, чтобы отличить настоящее личное имя ("Джон Смит, ID пациента 12345") от ложного срабатывания (идентификатор продукта, который случайно совпадает с шаблоном имени).

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.