Невидимият данък за съответствие
Инструментите за откриване на PII обикновено се оценяват при извикване - какъв процент от действителните PII е уловил инструментът? Но прецизността – какъв процент от откриванията на инструмента са действителни PII – определя оперативните разходи за използване на инструмента.
Система с 95% запомняне и 22,7% прецизност улавя 95% от реалната PII, но за всеки открит обект с истинска PII, маркира 3,4 фалшиви положителни резултати. В набор от данни, съдържащ 10 000 реални лица с PII, тази система генерира 10 000 / 0,227 ≈ 44 000 общо откривания, от които 34 000 са фалшиви положителни резултати, изискващи ръчен преглед или причиняващи свръхредактиране.
Това е „фалшив положителен данък“: оперативните разходи, наложени на всяка организация, която се опитва да използва система за откриване на PII с висока степен на припомняне и ниска точност в производствен мащаб. Фалшивият положителен данък има преки разходи — време за ръчен преглед — и непреки разходи: прекомерно редактираните документи прикриват съответната информация, забавят работните потоци и намаляват доверието в автоматизираната система.
Какви Presidio Издание #1071 документи
Microsoft Presidio GitHub дискусия #1071 (2024) документира специфичен и систематичен фалшив положителен модел. TFN (данъчен файлов номер) и PCI разпознаватели с проверка на контролна сума произвеждат резултати за увереност от 1,0 — максимална увереност — за номера, които не са PII, които случайно преминават алгоритъма за контролна сума.
Проблемът с дизайна: проверка на контекстна дума (проверка дали думи като "номер на данъчен файл" или "TFN" се появяват близо до открития обект) се прилага след стъпката на контролната сума, а не преди. Числата, които преминават контролната сума, получават резултат 1,0 независимо от контекста. В документи, съдържащи числени данни – финансови електронни таблици, набори от научни данни, регистрационни файлове – това създава поток от фалшиви положителни резултати, които не могат да бъдат филтрирани само по прага на резултата.
Отделен модел от общността Presidio (GitHub брой #999): сегментирането на немски думи създава фалшиви положителни резултати за обекти на име и местоположение. Немски съединения като "Bundesbehörde" (федерална власт) или общи немски термини могат да бъдат неправилно сегментирани и открити като лични имена.
Проблемът с 22,7% точност
Алваро и др. (2024) оцени Presidio настройките по подразбиране на смесени езици корпоративни набори от данни и установи 22,7% точност — което означава, че в реални корпоративни документи по-малко от 1 на 4 Presidio откривания съответства на действителна PII. Тази цифра е в съответствие с полевия опит на практикуващите: Presidio, настроен за извикване, произвежда неизползваем шум в производството.
Проучване от 2024 г., изследващо DICOM метаданни за медицински изображения, установи, че дори при score_threshold=0,7, 38 от 39 DICOM изображения все още имат фалшиви положителни резултати. Прагът, който елиминира фалшивите положителни резултати за един тип документ, създава фалшиви отрицателни резултати за друг.
Проблемът с прецизността не е уникален за Presidio — той отразява присъщата трудност при изграждането на PII детектор с висока степен на запомняне, който също така постига висока прецизност в различни типове документи, езици и формати на данни. Предизвикателството е, че всеки фиксиран праг представлява компромис: високият праг намалява фалшивите положителни резултати, но увеличава фалшивите отрицателни резултати; ниският праг увеличава припомнянето, но увеличава фалшивите положителни резултати.
Контекстно съобразеното решение
Алтернативата на настройката на прага е оценяване на доверието в зависимост от контекста. Вместо да присвоява увереност единствено въз основа на съвпадението на шаблона на обекта, контекстно-съобразеното точкуване повишава увереността, когато контекстните думи се появяват близо до съвпадението, и потиска фалшивите положителни резултати, когато контекстът липсва.
За откриване на TFN: резултатът се повишава, когато „номер на данъчен файл“, „TFN“ или „австралийски данък“ се появи в рамките на конфигурируем прозорец. Число, преминаващо контролната сума на TFN без близки контекстни думи, получава намален резултат за доверие, който пада под прага за преглед.
За междуезични фалшиви положителни резултати: типове обекти, които са специфични за определени езици (немски фискален идентификатор, френски NIR, австралийски TFN), могат да бъдат обхванати в документи, открити като този език. TFN детектор, прилаган само към английски и австралийско-английски документи, елиминира систематичните фалшиви положителни резултати, които възникват, когато същият детектор работи на немски документи.
Третото ниво на хибридно откриване — базирани на трансформатор контекстуални модели — добавя още един слой: моделът оценява пълния заобикалящ контекст, за да разграничи истинското лично име („Джон Смит, ID на пациент 12345“) от фалшиво положително (идентификатор на продукт, който съвпада с модел на име).
Източници:
- [Microsoft Presidio GitHub Дискусия #1071: систематични фалшиви положителни резултати в производството] (https://github.com/microsoft/presidio/discussions/1071)
- Microsoft Presidio GitHub Издание #999: Немски езикови фалшиви положителни модели
- [DICOM фалшиво положително проучване с анализ на прага на резултата] (https://microsoft.github.io/presidio/faq/)