anonym.legal
Назад до блогуТехнічні

Проблема хибнопозитивних результатів...

Бенчмарк 2024 року виявив, що Presidio генерував 13 536 хибнопозитивних виявлень імен у 4 434 зразках — позначав займенники...

March 23, 20268 хв читання
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Проблема хибнопозитивних результатів Presidio

GitHub issue #1071 Presidio документує систематичні хибнопозитивні результати в розпізнавачі імен осіб:

  • «He» (займенник) → PERSON
  • «Enterprise» (назва судна) → PERSON
  • «France» (назва країни) → PERSON
  • «Wednesday» (назва дня) → PERSON

Бенчмарк 2024 року виявив 22,7% точності у ділових документах — 77,3% виявлень хибнопозитивні.

Реальні витрати для юридичних та медичних клієнтів

Для юридичної фірми з 50 000-сторінковим виробництвом:

  • 22,7% точність = 38 650 хибнопозитивних виявлень
  • Кожне потребує людського огляду: ~30 секунд
  • 38 650 × 30 секунд = 322 годин людського часу
  • При $300/годині = $96 750 у додаткових людських витратах

Чому відбуваються хибнопозитивні результати

Проблема 1: Відсутня контекстна усвідомленість

Просте NER не розрізняє:

  • «France» (назва країни) vs «France Dupont» (особа)
  • «Enterprise» (продукт/судно) vs «John Enterprise» (особа)

Проблема 2: Спеціалізовані словники

Простий NER пропускає:

  • Власні назви продуктів у специфічних для галузі текстах
  • Медичні терміни, що звучать як імена
  • Юридичні терміни та назви суб'єктів

Гібридне рішення anonym.legal

Ми поєднуємо ML-NER з детермінованими правилами:

  • Контекстний аналіз зменшує хибнопозитивні результати

  • Специфічні для домену список виключень (медицина, юриспруденція, фінанси)

  • Валідація контрольної суми для структурованих ідентифікаторів

  • Збалансований F1: висока точність І висока повнота

  • Порівняти з Presidio

  • Розпочати безкоштовно


Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.