Оновлено для 2026 року

Проблема точності 22,7%

Дослідження 2024 року тестувало Microsoft Presidio на ділових файлах. Presidio — інструмент PII з відкритим кодом. Юридичні команди та медичні організації використовують його широко.

Дослідження вимірювало, як часто Presidio помилявся. Серед усіх елементів, позначених як імена осіб, скільки насправді були іменами осіб?

Відповідь — 22,7%. Приблизно 77 із кожних 100 позначень були помилковими. Дослідження підрахувало 13 536 хибних позначень серед 4 434 зразків файлів.

Помилки були не випадковими. Вони слідували чітким шаблонам:

Займенники, позначені як люди («Я» на початку речення)
Назви суден, позначені як люди («ASL Scorpio»)
Назви компаній, позначені як люди («Deloitte & Touche»)
Назви країн, позначені як люди («Аргентина», «Сінгапур»)

Жодне з цих не є рідкісними крайніми випадками. Вони з'являються щоразу, коли загальна модель NLP зустрічає текст, специфічний для певної предметної галузі. Модель не була побудована для того, щоб їх розрізняти.

Що коштують хибні позначення

В юридичній та медичній роботі кожне позначення потребує реакції. Команди стикаються з трьома варіантами. Усі три мають реальні витрати.

Варіант 1: Людина перевіряє кожне позначення. Час адвоката та експерта коштує 200–800 доларів на годину. При точності 22,7% обсяг є величезним. Це нежиттєздатно у масштабі. Дивіться Автоматизація PII в eDiscovery та скорочення витрат на юридичну перевірку, щоб дізнатись, як витрати на перевірку ростуть разом із обсягом.

Варіант 2: Пропустити перевірку і довіритись результату. Це також ризиковано. Коли 77% «відредагованих» елементів не є чутливими, ви створюєте правовий ризик. Суди штрафували адвокатів за надмірну редакцію. Дивіться Санкції в eDiscovery за надмірну редакцію для задокументованих справ.

Варіант 3: Підвищити поріг оцінки. Presidio дозволяє користувачам встановлювати score_threshold для відхилення слабких позначень. Дослідження DICOM 2024 року тестувало це на рівні 0,7 — досить висока планка. Результат: 38 з 39 зображень DICOM все ще мали хибні позначення. Порогові значення допомагають. Вони не усувають першопричину.

Чому загальний NLP тут зазнає труднощів

Прогалина Presidio виникає через невідповідність між навчальними даними та реальним використанням.

Юридичні файли рясніють термінами з великої літери. Назви справ, назви законів та коди позицій виглядають як персональні дані для загальної моделі. Вона їх позначає. Більшість з них не є персональними даними.

Медичні файли додають назви препаратів, коди пристроїв і клінічні скорочення. «Пацієнт» означає пацієнта. «Лікар» означає лікаря. Це порушує виявлення сутностей способами, які важко передбачити.

Фінансові файли мають коди продуктів, рядки сутностей та ідентифікатори рахунків, що мають поверхневі шаблони, схожі на персональні записи.

Доналаштування моделі на даних конкретної предметної галузі допомагає. Але на побудову та підтримку актуальності потрібен час і зусилля.

Як гібридне виявлення це виправляє

Проблема хибних позначень має чітке виправлення. Розділіть роботу за типом даних.

Правила шаблонів для структурованих даних. Номери соціального страхування, номери телефонів, адреси електронної пошти та формати ідентифікаторів підпорядковуються фіксованим правилам. Рядок або відповідає шаблону і проходить тест контрольної цифри, або ні. Нуль хибних позначень для дійсних наборів правил.

Мовні моделі для вільного тексту. Імена та прізвища, назви компаній і місця в прозі не мають жорсткої структури. NLP знаходить їх там, де правила не можуть. Оцінки впевненості та перевірки контексту скорочують рівень хибних позначень.

Параметри оцінки для кожного типу для тонкого контролю. Юридичні команди, що не можуть ризикувати надмірною редакцією, встановлюють високі порогові значення для розмитих збігів. Дослідницькі команди, яким потрібна висока повнота виявлення, встановлюють нижчі. Дивіться Бінарне виявлення PII та оцінки впевненості для відповідності вимогам, щоб дізнатись, як рівні оцінок працюють на практиці.

Результат — значно менше помилок, ніж при стандартних налаштуваннях Presidio. Повнота виявлення залишається сильною там, де правила самі по собі пропустили б надто багато.

Для юридичних та медичних команд ключове питання полягає не в тому, чи існують хибні позначення. Вони завжди існують у системах NLP. Питання в тому, чи дозволяє інструмент встановлювати, вимірювати та документувати цей компроміс.

Джерела

Схожі статті

Технічні

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

Хибні спрацьовування: чому ML-редакція дає збої

Проблема точності 22,7%

Що коштують хибні позначення

Чому загальний NLP тут зазнає труднощів

Як гібридне виявлення це виправляє

Джерела

Схожі статті

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Готові захистити свої дані?

Хибні спрацьовування: чому ML-редакція дає збої

Проблема точності 22,7%

Що коштують хибні позначення

Чому загальний NLP тут зазнає труднощів

Як гібридне виявлення це виправляє

Джерела

Схожі статті

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow