anonym.legal
Назад към блогаТехнически

Фалшивият положителен данък: Защо проблемът с...

Presidio GitHub издание #1071 документира системни фалшиви положителни резултати. Проучване от 2024 г.

April 3, 20268 мин. четене
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Невидимият данък за съответствие

Инструментите за откриване на PII обикновено се оценяват при извикване - какъв процент от действителните PII е уловил инструментът? Но прецизността – какъв процент от откриванията на инструмента са действителни PII – определя оперативните разходи за използване на инструмента.

Система с 95% запомняне и 22,7% прецизност улавя 95% от реалната PII, но за всеки открит обект с истинска PII, маркира 3,4 фалшиви положителни резултати. В набор от данни, съдържащ 10 000 реални лица с PII, тази система генерира 10 000 / 0,227 ≈ 44 000 общо откривания, от които 34 000 са фалшиви положителни резултати, изискващи ръчен преглед или причиняващи свръхредактиране.

Това е „фалшив положителен данък“: оперативните разходи, наложени на всяка организация, която се опитва да използва система за откриване на PII с висока степен на припомняне и ниска точност в производствен мащаб. Фалшивият положителен данък има преки разходи — време за ръчен преглед — и непреки разходи: прекомерно редактираните документи прикриват съответната информация, забавят работните потоци и намаляват доверието в автоматизираната система.

Какви Presidio Издание #1071 документи

Microsoft Presidio GitHub дискусия #1071 (2024) документира специфичен и систематичен фалшив положителен модел. TFN (данъчен файлов номер) и PCI разпознаватели с проверка на контролна сума произвеждат резултати за увереност от 1,0 — максимална увереност — за номера, които не са PII, които случайно преминават алгоритъма за контролна сума.

Проблемът с дизайна: проверка на контекстна дума (проверка дали думи като "номер на данъчен файл" или "TFN" се появяват близо до открития обект) се прилага след стъпката на контролната сума, а не преди. Числата, които преминават контролната сума, получават резултат 1,0 независимо от контекста. В документи, съдържащи числени данни – финансови електронни таблици, набори от научни данни, регистрационни файлове – това създава поток от фалшиви положителни резултати, които не могат да бъдат филтрирани само по прага на резултата.

Отделен модел от общността Presidio (GitHub брой #999): сегментирането на немски думи създава фалшиви положителни резултати за обекти на име и местоположение. Немски съединения като "Bundesbehörde" (федерална власт) или общи немски термини могат да бъдат неправилно сегментирани и открити като лични имена.

Проблемът с 22,7% точност

Алваро и др. (2024) оцени Presidio настройките по подразбиране на смесени езици корпоративни набори от данни и установи 22,7% точност — което означава, че в реални корпоративни документи по-малко от 1 на 4 Presidio откривания съответства на действителна PII. Тази цифра е в съответствие с полевия опит на практикуващите: Presidio, настроен за извикване, произвежда неизползваем шум в производството.

Проучване от 2024 г., изследващо DICOM метаданни за медицински изображения, установи, че дори при score_threshold=0,7, 38 от 39 DICOM изображения все още имат фалшиви положителни резултати. Прагът, който елиминира фалшивите положителни резултати за един тип документ, създава фалшиви отрицателни резултати за друг.

Проблемът с прецизността не е уникален за Presidio — той отразява присъщата трудност при изграждането на PII детектор с висока степен на запомняне, който също така постига висока прецизност в различни типове документи, езици и формати на данни. Предизвикателството е, че всеки фиксиран праг представлява компромис: високият праг намалява фалшивите положителни резултати, но увеличава фалшивите отрицателни резултати; ниският праг увеличава припомнянето, но увеличава фалшивите положителни резултати.

Контекстно съобразеното решение

Алтернативата на настройката на прага е оценяване на доверието в зависимост от контекста. Вместо да присвоява увереност единствено въз основа на съвпадението на шаблона на обекта, контекстно-съобразеното точкуване повишава увереността, когато контекстните думи се появяват близо до съвпадението, и потиска фалшивите положителни резултати, когато контекстът липсва.

За откриване на TFN: резултатът се повишава, когато „номер на данъчен файл“, „TFN“ или „австралийски данък“ се появи в рамките на конфигурируем прозорец. Число, преминаващо контролната сума на TFN без близки контекстни думи, получава намален резултат за доверие, който пада под прага за преглед.

За междуезични фалшиви положителни резултати: типове обекти, които са специфични за определени езици (немски фискален идентификатор, френски NIR, австралийски TFN), могат да бъдат обхванати в документи, открити като този език. TFN детектор, прилаган само към английски и австралийско-английски документи, елиминира систематичните фалшиви положителни резултати, които възникват, когато същият детектор работи на немски документи.

Третото ниво на хибридно откриване — базирани на трансформатор контекстуални модели — добавя още един слой: моделът оценява пълния заобикалящ контекст, за да разграничи истинското лично име („Джон Смит, ID на пациент 12345“) от фалшиво положително (идентификатор на продукт, който съвпада с модел на име).

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.