Проблема точності Presidio: 22,7%
Хибні спрацювання у виявленні PII завдають реальної шкоди. Коли 77,3% того, що ваш інструмент позначає як «імена осіб», насправді не є іменами, ви не захищаєте конфіденційність. Ви псуєте дані.
Бенчмарк 2024 року перевірив стандартну NER-модель Microsoft Presidio на ділових документах. Тест охоплював фінансові звіти, листи клієнтам, документацію до продуктів і звернення до служби підтримки. Результат: точність виявлення імен — 22,7%.
Цей показник вражає. З кожних 100 позначених елементів 23 є реальними іменами осіб. Решта 77 — хибні спрацювання: назви продуктів, торгові марки або назви міст.
Три з чотирьох виявлень — помилкові. Це не незначна проблема калібрування. Це зламаний інструмент для роботи з діловими документами.
Чому це відбувається
Presidio за замовчуванням використовує модель spaCy en_core_web_lg. Ця модель навчалась на новинних текстах. У новинах більшість власних назв — реальні люди або місця.
Ділові документи влаштовані інакше.
Назви продуктів, схожі на імена осіб. «Дані відвантаження Apple iPhone 15 Pro» позначаються як PERSON. Те саме відбувається з «Samsung Galaxy Tab» і «розгортання Cisco Meraki».
Корпоративні терміни з іменами в складі. У фразі «результати Johnson Controls» слово «Johnson» позначається як PERSON. «Портфель Goldman Sachs» спричиняє ту саму помилку.
Географічні назви, що активують виявлення осіб. «Проєкт Victoria Harbour» позначає «Victoria» як PERSON. «Хаб Santiago» позначає «Santiago» аналогічно.
Моделі бракує контексту, щоб відрізнити «Apple» (компанію) від «Apple Smith» (особи). Саме ця прогалина є причиною більшості хибних спрацювань. Новинні тексти навчили модель сприймати власні назви як людей або місця. Ділові тексти порушують це правило постійно.
Наслідки для подальших процесів
Аналітична компанія використовувала Presidio для очищення опитувань клієнтів перед їх передачею. Аудит виявив чотири проблеми. По-перше, у 40% опитувань назви продуктів було видалено помилково. По-друге, назви міст було вилучено з кожної відповіді. По-третє, згадки про бренди було видалено з аналітичного набору. По-четверте, стало неможливо оцінити ставлення до конкретних продуктів.
Аналітична команда отримала відредагований текст, з якого прибрали всі посилання на продукти. Спочатку в опитуванні згадувались iPhone Pro та зарядний пристрій Apple. Цей зміст зник.
Компанія не краще захищала конфіденційність. Вона руйнувала дані, не отримуючи жодних переваг у відповідності. Після аудиту Presidio було замінено.
Дивіться наш огляд відповідності, щоб дізнатися, як якість виявлення впливає на ваш регуляторний статус.
Кращий підхід: гібридне виявлення
Ця проблема не є унікальною для Presidio. NER на рівні токенів без контексту завжди матиме цю проблему. Рішення — виявлення з урахуванням контексту.
Чому трансформери допомагають: Модель на кшталт XLM-RoBERTa читає повне речення. «Apple оголосила свої прибутки» → Apple — компанія. «Apple Smith приєдналась до команди» → Apple — ім'я. Контекст говорить, що є що.
Це покращує точність, зберігаючи відтворюваність. Дивіться порівняння нижче.
| Підхід | Точність | Повнота |
|---|---|---|
| Стандартний NER Presidio | 22,7% | ~85% |
| Тільки регулярні вирази | ~95% | ~40% |
| Гібридний (Regex + NLP + Transformer) | ~85% | ~80% |
Гібридний підхід досягає точності 85%. Це означає рівень хибних спрацювань у 15% — значно краще, ніж 77,3%. Для ділових документів ця різниця критична.
Гібридний стек має чотири кроки:
-
Рівень регулярних виразів: Виявляє структуровані ідентифікатори — електронні адреси, номери телефонів, SSN, IBAN. Формати фіксовані, тому хибних спрацювань майже немає. Виконується першим.
-
Рівень NLP (spaCy): Стандартний NER для людей, компаній і місць. Висока повнота, нижча точність.
-
Рівень трансформерів (XLM-RoBERTa): Переоцінює кожен результат NLP з урахуванням контексту повного речення. «Apple» в контексті продукту втрачає оцінку сутності. «John» у тексті скарги — отримує.
-
Порогове значення достовірності: До вихідних даних потрапляють лише результати вище заданого показника. Підвищуйте поріг для аналітичних завдань. Знижуйте для деідентифікації за HIPAA.
Результати після перемикання
Аналітична компанія перейшла на гібридне виявлення. Покращення виявились очевидними. Хибні спрацювання для назв продуктів знизились з 40% до 3%. Хибні спрацювання для назв міст впали майже до нуля. Відтворюваність виявлення реальних особистостей залишилась на рівні ~82% — трохи нижче 85%, але точність значно покращилась.
Опитування знову стали придатними для аналізу. «iPhone», «Apple», «Samsung» і «Chicago» залишились у тексті. Імена клієнтів у скаргах були правильно видалені.
Гібридне виявлення вимагає більше обчислювальних ресурсів. Для великих завдань час виконання трохи довший. Для більшості ділових сценаріїв виграш у точності того вартий. Компанія знову змогла проводити аналіз. Саме для цього й існують дані опитувань.
Дізнайтесь про наш підхід до виявлення в огляді безпеки.
Коли прийнятний високий рівень хибних спрацювань
Деякі випадки вимагають переваги повноти над точністю.
HIPAA Safe Harbor: Пропустити реальний позитив — це порушення. Рівень хибних спрацювань у 10% прийнятний, якщо реальна PHI ніколи не пропускається. Зайве видалення безпечніше, ніж недостатнє.
Юридична перевірка: Пропустити привілейований контакт може означати відмову від привілею. Хибні спрацювання потребують перевірки, але не створюють відповідальності.
Бізнес-аналітика: Зайве видалення руйнує дані без переваг для відповідності. Тут важливіша точність. Використовуйте гібридний підхід з високим порогом достовірності. Це зберігає назви брендів і географічні терміни у вихідних даних. Видаляються лише реальні імена осіб.
Правильний баланс залежить від вашого сценарію використання. Інструменти, що дозволяють налаштовувати поріг, дають вам контроль. Жодне єдине значення за замовчуванням не підходить для кожного контексту.
Дивіться наш FAQ для відповідей на поширені запитання про порогові значення та режими виявлення.
Висновок
Рівень точності 22,7% означає, що 3 з 4 виявлень — помилкові. Для ділових документів це робить результати непридатними для аналізу. А також дає хибну впевненість у відповідності.
Гібридне виявлення вирішує цю проблему. Воно поєднує регулярні вирази, NLP і трансформерну оцінку. Дані залишаються корисними після анонімізації. Реальні імена осіб видаляються. Назви брендів, географічні терміни та ідентифікатори продуктів залишаються.
Якщо ви залишили Presidio через проблеми з хибними спрацюваннями — це шлях уперед. Не нова конфігурація тієї самої моделі. Інша архітектура, розроблена для контексту ділових документів.
Джерела
Priva PII Benchmark 2024: Оцінка точності Presidio. VERIFIED-EXTERNAL.
Microsoft Presidio: Підтримувані сутності та архітектура моделі. VERIFIED-EXTERNAL.
spaCy: Навчальні дані та обмеження en_core_web_lg. VERIFIED-EXTERNAL.