Проблемът с точността от 22,7% при Presidio

Фалшивите положителни резултати при разпознаване на PII данни причиняват реални щети. Когато 77,3% от това, което инструментът ви маркира като "лични имена", не са реални имена, вие не защитавате поверителността. Вие унищожавате данни.

Бенчмарк от 2024 г. тества стандартния NER модел на Microsoft Presidio върху бизнес документи. Тестът обхвана финансови отчети, клиентски писма, продуктова документация и заявки за поддръжка. Резултатът: 22,7% точност при разпознаване на имена.

Това число е поразително. За всеки 100 маркирани елемента, 23 са реални индивидуални имена. Останалите 77 са фалшиви положителни резултати -- продуктови етикети, търговски марки или наименования на градове.

Три от четири засичания са грешни. Това не е незначителен проблем с калибрирането. Това е неизправен инструмент за работа с бизнес документи.

Защо се случва това

Presidio използва по подразбиране модела en_core_web_lg на spaCy. Този модел е обучен върху новинарски текст. В новините повечето собствени имена са реални хора или места.

Бизнес документите са различни.

Продуктови етикети, които приличат на лични имена. "Apple iPhone 15 Pro shipment records" се маркира като PERSON. Същото важи за "Samsung Galaxy Tab" и "Cisco Meraki deployment".

Фирмени термини с части, подобни на имена. В "Johnson Controls results" думата "Johnson" се маркира като PERSON. "Goldman Sachs portfolio" предизвиква същата грешка.

Местни названия, задействащи разпознаване на лица. "Victoria Harbour project" маркира "Victoria" като PERSON. "Santiago hub" маркира "Santiago" по същия начин.

Моделът не притежава контекста, за да разграничи "Apple" (компания) от "Apple Smith" (лице). Тази разлика е в основата на повечето фалшиви положителни резултати. Новинарският текст го е научил да третира собствените имена като хора или места. Бизнес текстът нарушава това правило постоянно.

Ефектът надолу по веригата

Една компания за данни използва Presidio, за да почиства клиентски анкети преди да ги споделя. Одитът откри четири проблема. Първо, 40% от анкетите имаха неправилно премахнати продуктови етикети. Второ, наименованията на градове бяха изтрити от всеки отговор. Трето, споменаванията на марки бяха изтрити от аналитичния набор. Четвърто, настроенията към конкретни продукти не можеха да се разчетат.

Аналитичният екип получи редактиран текст с премахнати всички препратки към продукти. Анкетата първоначално споменаваше iPhone Pro и зарядното устройство на Apple. Тоа значение беше изгубено.

Фирмата не защитаваше поверителността по-добре. Унищожаваше данни без да постига съответствие. Presidio беше заменен след одита.

Вижте нашия преглед на съответствието за това как качеството на разпознаването влияе на регулаторния ви статус.

По-добър подход: хибридно разпознаване

Проблемът не е уникален за Presidio. NER на ниво токен без контекст винаги ще има този проблем. Решението е разпознаване, отчитащо контекста.

Защо трансформерите помагат: Модел като XLM-RoBERTa чете цялото изречение. "Apple announced its earnings" --> Apple е фирма. "Apple Smith joined the team" --> Apple е собствено име. Контекстът казва кое е кое.

Това подобрява точността при поддържане на висок recall. Вижте сравнението по-долу.

Подход	Точност	Recall
Presidio стандартен NER	22,7%	~85%
Само regex	~95%	~40%
Хибриден (Regex + NLP + Transformer)	~85%	~80%

Хибридният подход достига 85% точност. Това означава 15% фалшиви положителни резултати. Много по-добре от 77,3%. За бизнес документи тази разлика е от значение.

Хибридният стек има четири стъпки:

Regex слой: Открива структурирани идентификатори -- имейли, телефонни номера, SSN, IBAN. Форматите са фиксирани, затова фалшивите положителни резултати са редки. Изпълнява се първо.
NLP слой (spaCy): Стандартен NER за хора, фирми и места. Висок recall, по-ниска точност.
Transformer слой (XLM-RoBERTa): Преоценява всеки NLP резултат, използвайки пълния контекст на изречението. "Apple" в продуктов контекст губи своя резултат като обект. "John" в текст за оплакване го добива.
Праг на доверие: Само резултати над определена оценка преминават към изхода. Повишете прага за аналитични случаи. Понижете го за деидентификация по HIPAA.

Резултати след преминаване

Аналитичната фирма премина към хибридно разпознаване. Печалбите бяха ясни. Фалшивите положителни резултати за продуктови етикети спаднаха от 40% до 3%. Фалшивите положителни резултати за наименования на градове паднаха почти до нула. Реалният recall на идентичности остана на ~82%, малко под 85%, но точността се подобри значително.

Анкетите станаха отново използваеми. "iPhone", "Apple", "Samsung" и "Chicago" останаха в текста. Имената на клиенти в контекст на оплаквания бяха правилно премахнати.

Хибридното разпознаване изисква повече изчисления. При големи задачи времето за изпълнение е малко по-дълго. За повечето бизнес случаи печалбата в точността си заслужава. Фирмата можеше да провежда анализ отново. Това беше цялата цел на анкетните данни.

Прочетете за нашия подход за разпознаване в прегледа на сигурността.

Кога високите проценти на фалшиви положителни резултати са приемливи

Някои случаи поставят recall над точността.

HIPAA Safe Harbor: Пропускането на реален положителен резултат е нарушение. Процент от 10% фалшиви положителни резултати е приемлив, ако реалните PHI данни никога не се пропускат. Прекомерното премахване е по-безопасно от недостатъчното.

Правен преглед: Пропускането на привилегирован контакт може да отмени привилегията. Фалшивите положителни резултати изискват преглед, но не създават отговорност.

Бизнес анализи: Прекомерното премахване поврежда данните без да носи полза за съответствието. Точността е по-важна тук. Използвайте хибриден подход с висок праг на доверие. Това запазва марковите етикети и наименованията на градовете в резултата. Само реалните лични имена се премахват.

Правилният баланс зависи от случая на употреба. Инструментите, позволяващи настройка на прага, ви дават контрол. Никой стандартен праг не е подходящ за всеки контекст.

Вижте нашите FAQ за чести въпроси относно праговете и режимите на разпознаване.

Заключение

Процент на точност от 22,7% означава, че 3 от 4 засичания са грешни. За бизнес документи това прави резултата неизползваем за анализ. Дава и фалшива увереност за съответствие.

Хибридното разпознаване решава това. Комбинира regex, NLP и transformer оценяване. Данните остават полезни след анонимизирането. Реалните лични имена се премахват. Марковите етикети, наименованията на градовете и продуктовите идентификатори остават.

Ако сте напуснали Presidio поради проблеми с фалшивите положителни резултати, това е пътят напред. Не нова конфигурация на същия модел. Различна архитектура, създадена за контекста на бизнес документи.

Източници

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Свързани статии

Технически

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

Започнете безплатен пробен период Вижте функции

Проблемът с точността от 22,7% при Presidio