Актуализирано за 2026 г.
Проблемът с 22,7% точност
Проучване от 2024 г. тества Microsoft Presidio върху бизнес файлове. Presidio е инструмент за PII с отворен код. Правни екипи и здравни организации го използват широко.
Проучването измерва колко пъти Presidio е бил прав. От всичките маркирани от него елементи като лични имена, колко са действително лични имена?
Отговорът е 22,7%. Около 77 от всеки 100 маркирания са грешни. Проучването отчита 13 536 фалшиви маркирания в 4 434 образца файлове.
Грешките не са случайни. Следват ясни модели:
- Местоимения, маркирани като лица ("I" в началото на изречение)
- Корабни имена, маркирани като лица ("ASL Scorpio")
- Фирмени имена, маркирани като лица ("Deloitte & Touche")
- Имена на страни, маркирани като лица ("Argentina", "Singapore")
Нито едно от тях не е рядък граничен случай. Те се появяват всеки път, когато общ NLP модел срещне специализиран текст. Моделът не е създаден да ги различава.
Какво струват фалшивите маркирания
В правна и здравна работа всяко маркиране изисква реакция. Екипите имат три варианта. И трите имат реални разходи.
Вариант 1: Човек проверява всяко маркиране. Времето на адвокати и специалисти струва 200 до 800 долара на час. При 22,7% точност обемът е огромен. Това не е жизнеспособно в мащаб. Вижте PII автоматизация при електронно разкриване и намаляване на разходите за правен преглед за това как разходите за преглед растат с обема.
Вариант 2: Пропуснете прегледа и се доверете на изхода. Това също е рисковано. Когато 77% от "редактираните" елементи не са чувствителни, създавате правен риск. Съдилищата са глобили адвокати за прекомерна редакция. Вижте Санкции при прекомерна редакция в електронното разкриване за документирани случаи.
Вариант 3: Повишете прага на оценката. Presidio позволява на потребителите да задават score_threshold, за да отхвърлят слаби маркирания. Проучване за DICOM от 2024 г. тества това при 0.7 - доста висок стандарт. Резултатът: 38 от 39 DICOM изображения все още имат фалшиви маркирания. Праговете помагат. Не коригират основната причина.
Защо общият NLP се проваля тук
Пропастта в Presidio идва от несъответствие между данните за обучение и реалната употреба.
Правните файлове са пълни с термини с главни букви. Имена на дела, заглавия на закони и кодове на доказателства изглеждат като лични данни за общ модел. Той ги маркира. Повечето не са лични данни.
Здравните файлове добавят имена на лекарства, кодове на устройства и клинични съкращения. "Пт." означава Пациент. "Д-р" означава Доктор. Те объркват детекцията на субекти по начини, трудни за предвиждане.
Финансовите файлове имат кодове на продукти, низове от субекти и идентификатори на сметки, споделящи повърхностни шаблони с лични записи.
Фино настройване на модел с данни от домейна помага. Но изисква време и усилия за изграждане и поддържане.
Как хибридната детекция коригира това
Проблемът с фалшивите маркирания има ясно решение. Разделете работата по тип данни.
Правила за шаблони за структурирани данни. Номерата за социалното осигуряване, телефонните номера, имейл адресите и форматите на идентификатори следват фиксирани правила. Низ или отговаря на шаблона и преминава теста за контролна цифра, или не. Нула фалшиви маркирания за валидни набори от правила.
Езикови модели за свободен текст. Имена и фамилии, фирмени имена и местонахождения в проза нямат твърда структура. NLP ги открива, когато правилата не могат. Оценките на достоверност и проверките за контекст намаляват процента на фалшиви маркирания.
Настройки на оценките за всеки тип за прецизен контрол. Правните екипи, които не могат да рискуват прекомерна редакция, задават високи прагове за размити съвпадения. Изследователските екипи, нуждаещи се от пълно покритие, задават по-ниски. Вижте Бинарна PII детекция и оценки на достоверност за съответствие за начина на работа на нивата на оценки на практика.
Резултатът са много по-малко грешки от стандартните настройки на Presidio. Покритието остава силно там, където правилата самостоятелно биха пропуснали твърде много.
За правните и здравни екипи ключовият въпрос не е дали фалшивите маркирания съществуват. Те винаги съществуват в NLP системи. Въпросът е дали инструментът позволява да зададете, измерите и документирате компромиса.