Оновлено для 2026 року
Проблема точності 22,7%
Дослідження 2024 року тестувало Microsoft Presidio на ділових файлах. Presidio — інструмент PII з відкритим кодом. Юридичні команди та медичні організації використовують його широко.
Дослідження вимірювало, як часто Presidio помилявся. Серед усіх елементів, позначених як імена осіб, скільки насправді були іменами осіб?
Відповідь — 22,7%. Приблизно 77 із кожних 100 позначень були помилковими. Дослідження підрахувало 13 536 хибних позначень серед 4 434 зразків файлів.
Помилки були не випадковими. Вони слідували чітким шаблонам:
- Займенники, позначені як люди («Я» на початку речення)
- Назви суден, позначені як люди («ASL Scorpio»)
- Назви компаній, позначені як люди («Deloitte & Touche»)
- Назви країн, позначені як люди («Аргентина», «Сінгапур»)
Жодне з цих не є рідкісними крайніми випадками. Вони з'являються щоразу, коли загальна модель NLP зустрічає текст, специфічний для певної предметної галузі. Модель не була побудована для того, щоб їх розрізняти.
Що коштують хибні позначення
В юридичній та медичній роботі кожне позначення потребує реакції. Команди стикаються з трьома варіантами. Усі три мають реальні витрати.
Варіант 1: Людина перевіряє кожне позначення. Час адвоката та експерта коштує 200–800 доларів на годину. При точності 22,7% обсяг є величезним. Це нежиттєздатно у масштабі. Дивіться Автоматизація PII в eDiscovery та скорочення витрат на юридичну перевірку, щоб дізнатись, як витрати на перевірку ростуть разом із обсягом.
Варіант 2: Пропустити перевірку і довіритись результату. Це також ризиковано. Коли 77% «відредагованих» елементів не є чутливими, ви створюєте правовий ризик. Суди штрафували адвокатів за надмірну редакцію. Дивіться Санкції в eDiscovery за надмірну редакцію для задокументованих справ.
Варіант 3: Підвищити поріг оцінки. Presidio дозволяє користувачам встановлювати score_threshold для відхилення слабких позначень. Дослідження DICOM 2024 року тестувало це на рівні 0,7 — досить висока планка. Результат: 38 з 39 зображень DICOM все ще мали хибні позначення. Порогові значення допомагають. Вони не усувають першопричину.
Чому загальний NLP тут зазнає труднощів
Прогалина Presidio виникає через невідповідність між навчальними даними та реальним використанням.
Юридичні файли рясніють термінами з великої літери. Назви справ, назви законів та коди позицій виглядають як персональні дані для загальної моделі. Вона їх позначає. Більшість з них не є персональними даними.
Медичні файли додають назви препаратів, коди пристроїв і клінічні скорочення. «Пацієнт» означає пацієнта. «Лікар» означає лікаря. Це порушує виявлення сутностей способами, які важко передбачити.
Фінансові файли мають коди продуктів, рядки сутностей та ідентифікатори рахунків, що мають поверхневі шаблони, схожі на персональні записи.
Доналаштування моделі на даних конкретної предметної галузі допомагає. Але на побудову та підтримку актуальності потрібен час і зусилля.
Як гібридне виявлення це виправляє
Проблема хибних позначень має чітке виправлення. Розділіть роботу за типом даних.
Правила шаблонів для структурованих даних. Номери соціального страхування, номери телефонів, адреси електронної пошти та формати ідентифікаторів підпорядковуються фіксованим правилам. Рядок або відповідає шаблону і проходить тест контрольної цифри, або ні. Нуль хибних позначень для дійсних наборів правил.
Мовні моделі для вільного тексту. Імена та прізвища, назви компаній і місця в прозі не мають жорсткої структури. NLP знаходить їх там, де правила не можуть. Оцінки впевненості та перевірки контексту скорочують рівень хибних позначень.
Параметри оцінки для кожного типу для тонкого контролю. Юридичні команди, що не можуть ризикувати надмірною редакцією, встановлюють високі порогові значення для розмитих збігів. Дослідницькі команди, яким потрібна висока повнота виявлення, встановлюють нижчі. Дивіться Бінарне виявлення PII та оцінки впевненості для відповідності вимогам, щоб дізнатись, як рівні оцінок працюють на практиці.
Результат — значно менше помилок, ніж при стандартних налаштуваннях Presidio. Повнота виявлення залишається сильною там, де правила самі по собі пропустили б надто багато.
Для юридичних та медичних команд ключове питання полягає не в тому, чи існують хибні позначення. Вони завжди існують у системах NLP. Питання в тому, чи дозволяє інструмент встановлювати, вимірювати та документувати цей компроміс.