Данокот на лажно позитивни резултати кај алатките за откривање на лични податоци
Ажурирано за 2026
Повеќето PII алатки се оценуваат според повратот. Повратот го мери уделот на реалните лични податоци кои алатката ги наоѓа. Но прецизноста е исто толку важна. Прецизноста го мери уделот на предупредувањата на алатката кои навистина се лични податоци.
Ниската прецизност е скапа. Систем со 95% поврат и 22,7% прецизност открива повеќето лични податоци. Сепак, за секој реален ентитет со лични податоци кој го означува, исто така дава 3,4 погрешни предупредувања. Во датасет со 10.000 реални ентитети со лични податоци, тој систем произведува околу 44.000 предупредувања. Околу 34.000 од нив се погрешни. Секое чини време за прегледување или предизвикува претерано редактирање.
Тоа е данокот на лажно позитивни резултати. Тоа е режиски трошок кој секој тим го плаќа кога работи PII систем со висок поврат и ниска прецизност во голем обем. Директниот трошок е времето на рецензентот. Индиректниот трошок е полош: претерано редактираните документи кријат корисни податоци, го успоруваат работата и ја нарушуваат довербата во алатката.
Што покажува Presidio Проблем #1071
Discussion #1071 на Microsoft Presidio на GitHub (2024) документира специфичен образец. Препознавачите на TFN (даночен broj на фајлот) и PCI користат валидација на контролна сума. Броевите кои ја поминуваат контролната сума добиваат резултат 1,0 -- максимална доверба. Не е потребен контекст на лични податоци.
Основната причина: проверката на контекстни зборови се извршува после чекорот со контролна сума, не пред него. Бројот кој ја поминува контролната сума добива врвен резултат без оглед на околниот текст. Во финансиски табели, научни датасети или лог фајлови, ова го поплавува излезот со погрешни предупредувања. Филтрирањето со праг на резултат не може да го поправи ова. Резултатите веќе се на максимум.
Втор образец се јавува во Presidio проблем #999. Германската сегментација на зборови не успева за сложени именки. Зборови како Bundesbehörde (сојузен орган) може да бидат погрешно поделени и означени како лични имиња. Ова додава шум во секој документ на германски јазик.
Проблемот со прецизност од 22,7%
Alvaro et al. (2024) го тестираа Presidio на мешано-јазични деловни датасети. Откри 22,7% прецизност. Во реални документи, помалку од едно од четири Presidio предупредувања е реален ентитет со лични податоци. Ова соодветствува со она што практичарите го пријавуваат. Алатка подесена само за поврат произведува преголем шум за употреба во производство.
Студија за DICOM од 2024 покажа дека зголемувањето на score_threshold на 0,7 сепак оставало погрешни предупредувања во 38 од 39 медицински слики. Праг кој го исчистува шумот во еден тип документи создава пропуштени откривања во друг.
Тоа не е проблем само на Presidio. Секој фиксен праг наметнува компромис. Висок праг го намалува шумот, но ги зголемува пропустите. Низок праг го зголемува повратот, но го надува бројот на предупредувања.
Бодување свесно за контекст
Поправката е бодување на доверба свесно за контекст. Наместо бодување засновано само на совпаѓањето на шемата, системот ја зголемува довербата кога контекстните зборови се наоѓаат близу до совпаѓањето. Исто така ја намалува оценката кога контекстот недостасува.
За откривање на TFN: зборовите како "tax file number", "TFN" или "Australian tax" близу до број ја зголемуваат неговата оценка. Бројот кој ја поминува контролната сума, но нема блиски контекстни зборови, се оценува под прагот за преглед. Лажното предупредување се потиснува.
За меѓујазичен шум: типовите ентитети поврзани со специфични земји може да бидат ограничени на документи на соодветниот јазик. Детектор за TFN ограничен на англиски и австралиско-англиски текст го отстранува шумот. Негово извршување на германска содржина без ограничување е изворот на проблемот.
Третиот слој во хибриден систем е трансформаторски модел. Го чита целиот контекстен прозорец околу секој кандидат. Разликува "Јован Смит, ID на пациент 12345" од код на производ кој се совпаѓа со шема на ime. Контекстот ја разрешува двосмисленоста која regex и контролните суми не можат.
Погледнете како моторот за откривање со три нивоа управува со прецизноста во голем обем. Водичот за повеќејазично откривање на лични податоци покрива kako меѓујазичниот шум влијае на усогласеноста со GDPR.
Практични чекори
Пред да имплементирате која bilo PII алатка, измерете ја нејзината прецизност -- не само повратот.
Извршете ја алатката на збир документи со познати лични податоци и познати не-лични податоци. Пребројте ги предупредувањата во двете групи. Пресметајте true_positives / (true_positives + false_positives). Овој број го открива товарот на прегледување пред да се обврзете за распоредување.
За тимовите кои веќе го користат Presidio, анализата на распределбата на резултатот е брз пат. Извезете примерок на откривања со нивните оценки за доверба. Пребројте колку се под 0,6, 0,7 и 0,8. Голем удел на предупредувања со висока оценка во чист текст сигнализира јаз во контекстот, а не проблем со праг. Прегледот за безбедносна усогласеност објаснува kako да го документирате ова во DPIA.
Извори
- Microsoft Presidio GitHub Discussion #1071: систематски лажно позитивни резултати.
- Microsoft Presidio GitHub Issue #999: шеми на лажно позитивни резултати на германски јазик.
- Alvaro et al. (2024): Прецизност на Presidio на мешано-јазични деловни датасети.
- Анализа на прагот на резултат за DICOM -- заедница на Microsoft Presidio.