Проблема хибнопозитивних результатів Presidio
GitHub issue #1071 Presidio документує систематичні хибнопозитивні результати в розпізнавачі імен осіб:
- «He» (займенник) → PERSON
- «Enterprise» (назва судна) → PERSON
- «France» (назва країни) → PERSON
- «Wednesday» (назва дня) → PERSON
Бенчмарк 2024 року виявив 22,7% точності у ділових документах — 77,3% виявлень хибнопозитивні.
Реальні витрати для юридичних та медичних клієнтів
Для юридичної фірми з 50 000-сторінковим виробництвом:
- 22,7% точність = 38 650 хибнопозитивних виявлень
- Кожне потребує людського огляду: ~30 секунд
- 38 650 × 30 секунд = 322 годин людського часу
- При $300/годині = $96 750 у додаткових людських витратах
Чому відбуваються хибнопозитивні результати
Проблема 1: Відсутня контекстна усвідомленість
Просте NER не розрізняє:
- «France» (назва країни) vs «France Dupont» (особа)
- «Enterprise» (продукт/судно) vs «John Enterprise» (особа)
Проблема 2: Спеціалізовані словники
Простий NER пропускає:
- Власні назви продуктів у специфічних для галузі текстах
- Медичні терміни, що звучать як імена
- Юридичні терміни та назви суб'єктів
Гібридне рішення anonym.legal
Ми поєднуємо ML-NER з детермінованими правилами:
-
Контекстний аналіз зменшує хибнопозитивні результати
-
Специфічні для домену список виключень (медицина, юриспруденція, фінанси)
-
Валідація контрольної суми для структурованих ідентифікаторів
-
Збалансований F1: висока точність І висока повнота
Джерела: