anonym.legal

By · Last updated 2026-06-05

Назад к блогуТехнические

Проблема точности Presidio: 22,7%

Бенчмарк 2024 года показал, что распознаватель имён Presidio достигает точности лишь 22,7% на деловых документах — то есть 77,3% обнаружений являются ложными срабатываниями.

June 5, 20267 мин чтения
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Проблема точности Presidio: 22,7%

Ложные срабатывания при обнаружении персональных данных наносят реальный ущерб. Когда 77,3% того, что инструмент помечает как «имена людей», именами не являются, вы не защищаете конфиденциальность. Вы портите данные.

Бенчмарк 2024 года протестировал модель NER по умолчанию Microsoft Presidio на деловых документах. Тест охватывал финансовые отчёты, письма клиентам, документацию по продуктам и обращения в службу поддержки. Результат: точность обнаружения имён составила 22,7%.

Эта цифра говорит сама за себя. Из каждых 100 помеченных элементов 23 — реальные имена людей. Остальные 77 — ложные срабатывания: названия продуктов, торговые марки или наименования городов.

Три из четырёх обнаружений ошибочны. Это не незначительная проблема калибровки. Для работы с деловыми документами инструмент попросту неисправен.

Почему это происходит

Presidio по умолчанию использует модель spaCy en_core_web_lg. Эта модель обучалась на новостных текстах. В новостях большинство имён собственных — это реальные люди или места.

Деловые документы устроены иначе.

Названия продуктов, похожие на имена людей. «Apple iPhone 15 Pro shipment records» помечается как PERSON. Так же — «Samsung Galaxy Tab» и «Cisco Meraki deployment».

Корпоративные термины с частями, похожими на имена. В «Johnson Controls results» слово «Johnson» помечается как PERSON. «Goldman Sachs portfolio» вызывает ту же ошибку.

Топонимы, запускающие обнаружение имён. «Victoria Harbour project» помечает «Victoria» как PERSON. «Santiago hub» помечает «Santiago» аналогичным образом.

Модели не хватает контекста, чтобы отличить «Apple» (компания) от «Apple Smith» (человек). Этот пробел — корень большинства ложных срабатываний. Новостные тексты научили её считать имена собственные людьми или местами. Деловые тексты постоянно нарушают это правило.

Последствия для работы

Аналитическая компания использовала Presidio для очистки опросов клиентов перед их распространением. Аудит выявил четыре проблемы. Во-первых, в 40% опросов названия продуктов были ошибочно удалены. Во-вторых, топонимы были вырезаны из каждого ответа. В-третьих, упоминания брендов были стёрты из аналитического набора. В-четвёртых, оказалось невозможным оценить тональность отзывов о конкретных продуктах.

Аналитическая группа получила редактированный текст с удалёнными всеми упоминаниями продуктов. В исходном опросе были названы iPhone Pro и зарядное устройство Apple. Этот смысл был утерян.

Компания не улучшила защиту конфиденциальности. Она испортила данные, не получив взамен соответствия требованиям. После аудита Presidio был заменён.

См. наш обзор соответствия требованиям о том, как качество обнаружения влияет на регуляторный статус.

Лучший подход: гибридное обнаружение

Эта проблема не уникальна для Presidio. Токен-уровневый NER без учёта контекста всегда будет с ней сталкиваться. Решение — контекстно-зависимое обнаружение.

Почему помогают трансформеры: Модель вроде XLM-RoBERTa читает предложение целиком. «Apple announced its earnings» → Apple — это компания. «Apple Smith joined the team» → Apple — это имя. Контекст подсказывает, что есть что.

Это повышает точность при сохранении высокой полноты. Сравнение приведено ниже.

ПодходТочностьПолнота
Presidio (NER по умолчанию)22,7%~85%
Только регулярные выражения~95%~40%
Гибрид (Regex + NLP + Transformer)~85%~80%

Гибридный подход достигает точности 85%. Это означает уровень ложных срабатываний 15% — значительно лучше, чем 77,3%. Для деловых документов этот разрыв принципиален.

Гибридный стек состоит из четырёх шагов:

  1. Слой регулярных выражений: находит структурированные идентификаторы — электронные адреса, номера телефонов, SSN, IBAN. Форматы фиксированы, поэтому ложные срабатывания редки. Выполняется первым.

  2. NLP-слой (spaCy): стандартный NER для людей, компаний и мест. Высокая полнота, более низкая точность.

  3. Слой трансформера (XLM-RoBERTa): переоценивает каждый результат NLP с учётом контекста всего предложения. «Apple» в контексте продукта теряет оценку сущности. «John» в тексте жалобы её получает.

  4. Порог достоверности: в результат попадают только совпадения выше заданного значения. Повысьте порог для аналитических задач. Снизьте для деидентификации по HIPAA.

Результаты после перехода

Аналитическая компания перешла на гибридное обнаружение. Улучшения оказались очевидными. Ложные срабатывания по названиям продуктов снизились с 40% до 3%. Ложные срабатывания по топонимам упали почти до нуля. Полнота обнаружения реальных персональных данных сохранилась на уровне ~82% — немного ниже прежних 85%, но точность значительно выросла.

Опросы снова стали пригодны для анализа. «iPhone», «Apple», «Samsung» и «Chicago» остались в тексте. Имена клиентов в контексте жалоб были корректно удалены.

Гибридное обнаружение требует больше вычислительных ресурсов. Для больших заданий время выполнения несколько увеличивается. Для большинства деловых задач выигрыш в точности оправдывает это. Компания смогла снова проводить анализ — в этом и был весь смысл данных опроса.

Подробнее о нашем подходе к обнаружению — в обзоре безопасности.

Когда высокий уровень ложных срабатываний допустим

Некоторые сценарии предполагают приоритет полноты над точностью.

HIPAA Safe Harbor: пропустить реальное совпадение означает нарушение. Уровень ложных срабатываний в 10% приемлем, если реальные PHI никогда не пропускаются. Избыточное удаление безопаснее, чем недостаточное.

Юридическая проверка: пропуск привилегированного контакта может повлечь потерю привилегии. Ложные срабатывания требуют проверки, но не создают ответственности.

Бизнес-аналитика: избыточное удаление портит данные без выигрыша в соответствии требованиям. Здесь точность важнее. Используйте гибридный подход с высоким порогом достоверности. Он сохраняет в тексте названия брендов и топонимы. Удаляются только реальные имена людей.

Правильный баланс зависит от вашего сценария. Инструменты с настраиваемым порогом дают вам контроль. Ни одно значение по умолчанию не подходит для всех контекстов.

См. наш FAQ для ответов на распространённые вопросы о порогах и режимах обнаружения.

Заключение

Точность 22,7% означает, что 3 из 4 обнаружений ошибочны. Для деловых документов это делает результат непригодным для анализа. Кроме того, создаётся ложная уверенность в соответствии требованиям.

Гибридное обнаружение устраняет эту проблему. Оно сочетает регулярные выражения, NLP и оценку трансформером. Данные остаются полезными после анонимизации. Реальные имена людей удаляются. Торговые марки, топонимы и идентификаторы продуктов остаются.

Если вы отказались от Presidio из-за проблем с ложными срабатываниями — вот путь вперёд. Не новая конфигурация той же модели. Другая архитектура, созданная для деловых документов.

Источники

Priva PII Benchmark 2024: Оценка точности Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Поддерживаемые сущности и архитектура модели. VERIFIED-EXTERNAL.

spaCy: Обучающие данные и ограничения en_core_web_lg. VERIFIED-EXTERNAL.

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.