anonym.legal
Назад към блогаТехнически

Фалшиво положителният проблем: Защо чистото...

Сравнителен анализ от 2024 г. установи, че Presidio генерира 13 536 фалшиви положителни откривания на имена в 4 434 проби...

March 23, 20268 мин. четене
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Проблемът с 22,7% точност в производството

Сравнително проучване от 2024 г. на Microsoft Presidio — машината за откриване на PII с отворен код, използвана в правни технологии, здравеопазване и корпоративни приложения за защита на данни — установи 22,7% процент на точност за откриване на имена на лица в контекста на бизнес документи.

Прецизността измерва точността на положителните идентификации: какъв процент от елементите, отбелязани от инструмента като „имена на лица“, всъщност са имена на хора. При 22,7%, приблизително 77 от всеки 100 елемента, маркирани като имена на хора, са фалшиви положителни резултати.

Бенчмаркът документира 13 536 фалшиви положителни откривания на имена в 4434 проби от документи. Фалшивите положителни резултати включват:

  • Местоимения, маркирани като имена на лица („I“, появяващо се в началото на изреченията)
  • Имена на кораби, маркирани като имена на лица ("ASL Scorpio") – Имена на организации, маркирани като имена на лица („Deloitte & Touche“)
  • Имена на държави, маркирани като имена на хора ("Аржентина", "Сингапур")

Това не са крайни случаи. Те са систематични модели, които се появяват, когато NLP модел с общо предназначение, обучен върху смесени корпуси, се прилага към специфични за домейн типове документи, където собствените съществителни се появяват в контексти, които моделът не е обучен да разграничава.

Структурата на разходите за фалшиви положителни резултати в мащаб

В правната и здравната среда фалшивите положителни резултати не са безплатни. Всеки маркиран елемент изисква разпореждане: или преглед от човек за потвърждаване или отхвърляне на флага, или автоматична обработка, която оставя фалшивия положителен резултат некоригиран.

Вариант 1: Човешки преглед на всеки маркиран артикул. При $200 до $800 на час за време на адвокат или специалист, прегледът на фалшиви положителни резултати от система с 22,7% точност е икономически непосилно в мащаб. За продукция от 10 000 документа със 100 маркирани елемента на документ с 22,7% точност, приблизително 77 300 елемента изискват човешки преглед. При 5 минути на артикул при $300 на час, това са 6442 часа време за преглед — приблизително $1,9 милиона.

Опция 2: Пропуснете ръчния преглед и приемете автоматична обработка. Резултатът е продукция, при която 77% от „редактираните“ елементи всъщност не са били чувствителни — създавайки отговорност за свръхредактиране (откриваемо съдържание е задържано без основание), унищожаване на полезността на документа и потенциално задействане на санкции.

Опция 3: Прагове за резултат. Presidio позволява конфигурацията на score_threshold за намаляване на фалшивите положителни резултати само чрез маркиране на елементи над прага на достоверност. Сравнително проучване от 2024 г. на DICOM документи за медицински изображения установи, че дори при score_threshold=0,7 — сравнително агресивен прецизен филтър — 38 от 39 DICOM изображения все още имат фалшиви положителни елементи. Праговете на резултата намаляват, но не елиминират проблема с фалшивите положителни резултати за чисто откриване на ML.

Защо Pure ML не успява с документи, специфични за домейн

Presidio фалшиво положителен модел отразява фундаментално ограничение на моделите NLP с общо предназначение в специфичен за домейн контекст:

Юридическите документи съдържат специализирани собствени съществителни имена – имена на дела, имена на статути, обозначения на изложби – които споделят модели на повърхностно ниво с имена на лица. Модел, обучен на общ текст, научава, че собствените съществителни с главна буква често са имена на хора. Юридическият документ съдържа стотици собствени имена с главна буква, които не са имена на лица.

Здравните документи съдържат имена на лекарства, имена на устройства и процедурни кодове, които включват последователности от букви, наподобяващи съкращения на имена. Клиничният текст също съдържа съкращения („Pt.“ за пациент, „Dr.“ за лекар), които взаимодействат непредвидимо с откриването на име.

Финансовите документи съдържат имена на продукти, имена на обекти и идентификационни кодове, които споделят модели с лични идентификатори.

Специфичната за домейн настройка адресира тези модели, но изисква значителна инвестиция в фина настройка на набори от данни и непрекъсната поддръжка с развитието на типовете документи.

Решението за хибридна архитектура

Фалшивият положителен проблем е структурно разрешим чрез хибридно откриване, което разделя структурираните данни (където регулярният израз осигурява 100% точност) от контекстните данни (където ML осигурява разпознаване на образи с калибрирана увереност).

Регулярни изрази за структурирани идентификатори: SSN, телефонни номера, имейл адреси, номера на кредитни карти, национални идентификационни формати, номера на банкови сметки. Тези формати са детерминистични - даден низ или съвпада с шаблона и преминава проверка на контролната сума, или не. Нула фалшиви положителни резултати за законни внедрявания.

**NLP за контекстуални обекти: ** Имена на лица, имена на организации, местоположения в неструктуриран текст. Моделите NLP осигуряват извикване за обекти, които нямат структурни модели. Оценката на доверието и изискванията за контекстна дума намаляват фалшивите положителни резултати.

**Конфигурация на прага за тип обект: ** Задаването на 90% праг на достоверност за имената на лица, докато се използва сигурност на регулярен израз (ефективно 100%) за SSN позволява калибриране до специфични за домейна фалшиви положителни толеранси. Правните екипи, които не могат да понесат риск от свръхредактиране, определят по-високи прагове; клинични изследователски екипи, които максимизират деидентификацията, запомнят по-ниски.

Резултатът: драстично по-ниски нива на фалшиви положителни резултати от Presidio по подразбиране, като същевременно се запазва припомнянето, което не може да се постигне с чисто съвпадение на шаблони. За правни и здравни организации, оценяващи автоматизирани инструменти за редактиране, компромисът за прецизно извикване е управляем – но само с инструмент, който го излага като конфигурируем параметър, а не като фиксирано поведение на системата.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.