anonym.legal

By · Last updated 2026-06-05

Назад до блогуТехнічні

Проблема точності Presidio: 22,7%

Бенчмарк 2024 року показав, що розпізнавач імен осіб у Presidio досягає точності 22,7% у ділових документах — це означає, що 77,3% виявлень є хибними спрацюваннями.

June 5, 20267 хв читання
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Проблема точності Presidio: 22,7%

Хибні спрацювання у виявленні PII завдають реальної шкоди. Коли 77,3% того, що ваш інструмент позначає як «імена осіб», насправді не є іменами, ви не захищаєте конфіденційність. Ви псуєте дані.

Бенчмарк 2024 року перевірив стандартну NER-модель Microsoft Presidio на ділових документах. Тест охоплював фінансові звіти, листи клієнтам, документацію до продуктів і звернення до служби підтримки. Результат: точність виявлення імен — 22,7%.

Цей показник вражає. З кожних 100 позначених елементів 23 є реальними іменами осіб. Решта 77 — хибні спрацювання: назви продуктів, торгові марки або назви міст.

Три з чотирьох виявлень — помилкові. Це не незначна проблема калібрування. Це зламаний інструмент для роботи з діловими документами.

Чому це відбувається

Presidio за замовчуванням використовує модель spaCy en_core_web_lg. Ця модель навчалась на новинних текстах. У новинах більшість власних назв — реальні люди або місця.

Ділові документи влаштовані інакше.

Назви продуктів, схожі на імена осіб. «Дані відвантаження Apple iPhone 15 Pro» позначаються як PERSON. Те саме відбувається з «Samsung Galaxy Tab» і «розгортання Cisco Meraki».

Корпоративні терміни з іменами в складі. У фразі «результати Johnson Controls» слово «Johnson» позначається як PERSON. «Портфель Goldman Sachs» спричиняє ту саму помилку.

Географічні назви, що активують виявлення осіб. «Проєкт Victoria Harbour» позначає «Victoria» як PERSON. «Хаб Santiago» позначає «Santiago» аналогічно.

Моделі бракує контексту, щоб відрізнити «Apple» (компанію) від «Apple Smith» (особи). Саме ця прогалина є причиною більшості хибних спрацювань. Новинні тексти навчили модель сприймати власні назви як людей або місця. Ділові тексти порушують це правило постійно.

Наслідки для подальших процесів

Аналітична компанія використовувала Presidio для очищення опитувань клієнтів перед їх передачею. Аудит виявив чотири проблеми. По-перше, у 40% опитувань назви продуктів було видалено помилково. По-друге, назви міст було вилучено з кожної відповіді. По-третє, згадки про бренди було видалено з аналітичного набору. По-четверте, стало неможливо оцінити ставлення до конкретних продуктів.

Аналітична команда отримала відредагований текст, з якого прибрали всі посилання на продукти. Спочатку в опитуванні згадувались iPhone Pro та зарядний пристрій Apple. Цей зміст зник.

Компанія не краще захищала конфіденційність. Вона руйнувала дані, не отримуючи жодних переваг у відповідності. Після аудиту Presidio було замінено.

Дивіться наш огляд відповідності, щоб дізнатися, як якість виявлення впливає на ваш регуляторний статус.

Кращий підхід: гібридне виявлення

Ця проблема не є унікальною для Presidio. NER на рівні токенів без контексту завжди матиме цю проблему. Рішення — виявлення з урахуванням контексту.

Чому трансформери допомагають: Модель на кшталт XLM-RoBERTa читає повне речення. «Apple оголосила свої прибутки» → Apple — компанія. «Apple Smith приєдналась до команди» → Apple — ім'я. Контекст говорить, що є що.

Це покращує точність, зберігаючи відтворюваність. Дивіться порівняння нижче.

ПідхідТочністьПовнота
Стандартний NER Presidio22,7%~85%
Тільки регулярні вирази~95%~40%
Гібридний (Regex + NLP + Transformer)~85%~80%

Гібридний підхід досягає точності 85%. Це означає рівень хибних спрацювань у 15% — значно краще, ніж 77,3%. Для ділових документів ця різниця критична.

Гібридний стек має чотири кроки:

  1. Рівень регулярних виразів: Виявляє структуровані ідентифікатори — електронні адреси, номери телефонів, SSN, IBAN. Формати фіксовані, тому хибних спрацювань майже немає. Виконується першим.

  2. Рівень NLP (spaCy): Стандартний NER для людей, компаній і місць. Висока повнота, нижча точність.

  3. Рівень трансформерів (XLM-RoBERTa): Переоцінює кожен результат NLP з урахуванням контексту повного речення. «Apple» в контексті продукту втрачає оцінку сутності. «John» у тексті скарги — отримує.

  4. Порогове значення достовірності: До вихідних даних потрапляють лише результати вище заданого показника. Підвищуйте поріг для аналітичних завдань. Знижуйте для деідентифікації за HIPAA.

Результати після перемикання

Аналітична компанія перейшла на гібридне виявлення. Покращення виявились очевидними. Хибні спрацювання для назв продуктів знизились з 40% до 3%. Хибні спрацювання для назв міст впали майже до нуля. Відтворюваність виявлення реальних особистостей залишилась на рівні ~82% — трохи нижче 85%, але точність значно покращилась.

Опитування знову стали придатними для аналізу. «iPhone», «Apple», «Samsung» і «Chicago» залишились у тексті. Імена клієнтів у скаргах були правильно видалені.

Гібридне виявлення вимагає більше обчислювальних ресурсів. Для великих завдань час виконання трохи довший. Для більшості ділових сценаріїв виграш у точності того вартий. Компанія знову змогла проводити аналіз. Саме для цього й існують дані опитувань.

Дізнайтесь про наш підхід до виявлення в огляді безпеки.

Коли прийнятний високий рівень хибних спрацювань

Деякі випадки вимагають переваги повноти над точністю.

HIPAA Safe Harbor: Пропустити реальний позитив — це порушення. Рівень хибних спрацювань у 10% прийнятний, якщо реальна PHI ніколи не пропускається. Зайве видалення безпечніше, ніж недостатнє.

Юридична перевірка: Пропустити привілейований контакт може означати відмову від привілею. Хибні спрацювання потребують перевірки, але не створюють відповідальності.

Бізнес-аналітика: Зайве видалення руйнує дані без переваг для відповідності. Тут важливіша точність. Використовуйте гібридний підхід з високим порогом достовірності. Це зберігає назви брендів і географічні терміни у вихідних даних. Видаляються лише реальні імена осіб.

Правильний баланс залежить від вашого сценарію використання. Інструменти, що дозволяють налаштовувати поріг, дають вам контроль. Жодне єдине значення за замовчуванням не підходить для кожного контексту.

Дивіться наш FAQ для відповідей на поширені запитання про порогові значення та режими виявлення.

Висновок

Рівень точності 22,7% означає, що 3 з 4 виявлень — помилкові. Для ділових документів це робить результати непридатними для аналізу. А також дає хибну впевненість у відповідності.

Гібридне виявлення вирішує цю проблему. Воно поєднує регулярні вирази, NLP і трансформерну оцінку. Дані залишаються корисними після анонімізації. Реальні імена осіб видаляються. Назви брендів, географічні терміни та ідентифікатори продуктів залишаються.

Якщо ви залишили Presidio через проблеми з хибними спрацюваннями — це шлях уперед. Не нова конфігурація тієї самої моделі. Інша архітектура, розроблена для контексту ділових документів.

Джерела

Priva PII Benchmark 2024: Оцінка точності Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Підтримувані сутності та архітектура моделі. VERIFIED-EXTERNAL.

spaCy: Навчальні дані та обмеження en_core_web_lg. VERIFIED-EXTERNAL.

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.