anonym.legal

By · Last updated 2026-03-23

Назад до блогуТехнічні

Хибні спрацьовування: чому ML-редакція дає збої

Тест-порівняння 2024 року показав, що Presidio згенерував 13 536 хибних спрацьовувань при виявленні імен серед 4 434 зразків — позначаючи займенники, назви суден і країн як імена осіб.

March 23, 20268 хв читання
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Оновлено для 2026 року

Проблема точності 22,7%

Дослідження 2024 року тестувало Microsoft Presidio на ділових файлах. Presidio — інструмент PII з відкритим кодом. Юридичні команди та медичні організації використовують його широко.

Дослідження вимірювало, як часто Presidio помилявся. Серед усіх елементів, позначених як імена осіб, скільки насправді були іменами осіб?

Відповідь — 22,7%. Приблизно 77 із кожних 100 позначень були помилковими. Дослідження підрахувало 13 536 хибних позначень серед 4 434 зразків файлів.

Помилки були не випадковими. Вони слідували чітким шаблонам:

  • Займенники, позначені як люди («Я» на початку речення)
  • Назви суден, позначені як люди («ASL Scorpio»)
  • Назви компаній, позначені як люди («Deloitte & Touche»)
  • Назви країн, позначені як люди («Аргентина», «Сінгапур»)

Жодне з цих не є рідкісними крайніми випадками. Вони з'являються щоразу, коли загальна модель NLP зустрічає текст, специфічний для певної предметної галузі. Модель не була побудована для того, щоб їх розрізняти.

Що коштують хибні позначення

В юридичній та медичній роботі кожне позначення потребує реакції. Команди стикаються з трьома варіантами. Усі три мають реальні витрати.

Варіант 1: Людина перевіряє кожне позначення. Час адвоката та експерта коштує 200–800 доларів на годину. При точності 22,7% обсяг є величезним. Це нежиттєздатно у масштабі. Дивіться Автоматизація PII в eDiscovery та скорочення витрат на юридичну перевірку, щоб дізнатись, як витрати на перевірку ростуть разом із обсягом.

Варіант 2: Пропустити перевірку і довіритись результату. Це також ризиковано. Коли 77% «відредагованих» елементів не є чутливими, ви створюєте правовий ризик. Суди штрафували адвокатів за надмірну редакцію. Дивіться Санкції в eDiscovery за надмірну редакцію для задокументованих справ.

Варіант 3: Підвищити поріг оцінки. Presidio дозволяє користувачам встановлювати score_threshold для відхилення слабких позначень. Дослідження DICOM 2024 року тестувало це на рівні 0,7 — досить висока планка. Результат: 38 з 39 зображень DICOM все ще мали хибні позначення. Порогові значення допомагають. Вони не усувають першопричину.

Чому загальний NLP тут зазнає труднощів

Прогалина Presidio виникає через невідповідність між навчальними даними та реальним використанням.

Юридичні файли рясніють термінами з великої літери. Назви справ, назви законів та коди позицій виглядають як персональні дані для загальної моделі. Вона їх позначає. Більшість з них не є персональними даними.

Медичні файли додають назви препаратів, коди пристроїв і клінічні скорочення. «Пацієнт» означає пацієнта. «Лікар» означає лікаря. Це порушує виявлення сутностей способами, які важко передбачити.

Фінансові файли мають коди продуктів, рядки сутностей та ідентифікатори рахунків, що мають поверхневі шаблони, схожі на персональні записи.

Доналаштування моделі на даних конкретної предметної галузі допомагає. Але на побудову та підтримку актуальності потрібен час і зусилля.

Як гібридне виявлення це виправляє

Проблема хибних позначень має чітке виправлення. Розділіть роботу за типом даних.

Правила шаблонів для структурованих даних. Номери соціального страхування, номери телефонів, адреси електронної пошти та формати ідентифікаторів підпорядковуються фіксованим правилам. Рядок або відповідає шаблону і проходить тест контрольної цифри, або ні. Нуль хибних позначень для дійсних наборів правил.

Мовні моделі для вільного тексту. Імена та прізвища, назви компаній і місця в прозі не мають жорсткої структури. NLP знаходить їх там, де правила не можуть. Оцінки впевненості та перевірки контексту скорочують рівень хибних позначень.

Параметри оцінки для кожного типу для тонкого контролю. Юридичні команди, що не можуть ризикувати надмірною редакцією, встановлюють високі порогові значення для розмитих збігів. Дослідницькі команди, яким потрібна висока повнота виявлення, встановлюють нижчі. Дивіться Бінарне виявлення PII та оцінки впевненості для відповідності вимогам, щоб дізнатись, як рівні оцінок працюють на практиці.

Результат — значно менше помилок, ніж при стандартних налаштуваннях Presidio. Повнота виявлення залишається сильною там, де правила самі по собі пропустили б надто багато.

Для юридичних та медичних команд ключове питання полягає не в тому, чи існують хибні позначення. Вони завжди існують у системах NLP. Питання в тому, чи дозволяє інструмент встановлювати, вимірювати та документувати цей компроміс.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.