Данокот на лажно позитивни резултати кај алатките за откривање на лични податоци

Ажурирано за 2026

Повеќето PII алатки се оценуваат според повратот. Повратот го мери уделот на реалните лични податоци кои алатката ги наоѓа. Но прецизноста е исто толку важна. Прецизноста го мери уделот на предупредувањата на алатката кои навистина се лични податоци.

Ниската прецизност е скапа. Систем со 95% поврат и 22,7% прецизност открива повеќето лични податоци. Сепак, за секој реален ентитет со лични податоци кој го означува, исто така дава 3,4 погрешни предупредувања. Во датасет со 10.000 реални ентитети со лични податоци, тој систем произведува околу 44.000 предупредувања. Околу 34.000 од нив се погрешни. Секое чини време за прегледување или предизвикува претерано редактирање.

Тоа е данокот на лажно позитивни резултати. Тоа е режиски трошок кој секој тим го плаќа кога работи PII систем со висок поврат и ниска прецизност во голем обем. Директниот трошок е времето на рецензентот. Индиректниот трошок е полош: претерано редактираните документи кријат корисни податоци, го успоруваат работата и ја нарушуваат довербата во алатката.

Што покажува Presidio Проблем #1071

Discussion #1071 на Microsoft Presidio на GitHub (2024) документира специфичен образец. Препознавачите на TFN (даночен broj на фајлот) и PCI користат валидација на контролна сума. Броевите кои ја поминуваат контролната сума добиваат резултат 1,0 -- максимална доверба. Не е потребен контекст на лични податоци.

Основната причина: проверката на контекстни зборови се извршува после чекорот со контролна сума, не пред него. Бројот кој ја поминува контролната сума добива врвен резултат без оглед на околниот текст. Во финансиски табели, научни датасети или лог фајлови, ова го поплавува излезот со погрешни предупредувања. Филтрирањето со праг на резултат не може да го поправи ова. Резултатите веќе се на максимум.

Втор образец се јавува во Presidio проблем #999. Германската сегментација на зборови не успева за сложени именки. Зборови како Bundesbehörde (сојузен орган) може да бидат погрешно поделени и означени како лични имиња. Ова додава шум во секој документ на германски јазик.

Проблемот со прецизност од 22,7%

Alvaro et al. (2024) го тестираа Presidio на мешано-јазични деловни датасети. Откри 22,7% прецизност. Во реални документи, помалку од едно од четири Presidio предупредувања е реален ентитет со лични податоци. Ова соодветствува со она што практичарите го пријавуваат. Алатка подесена само за поврат произведува преголем шум за употреба во производство.

Студија за DICOM од 2024 покажа дека зголемувањето на score_threshold на 0,7 сепак оставало погрешни предупредувања во 38 од 39 медицински слики. Праг кој го исчистува шумот во еден тип документи создава пропуштени откривања во друг.

Тоа не е проблем само на Presidio. Секој фиксен праг наметнува компромис. Висок праг го намалува шумот, но ги зголемува пропустите. Низок праг го зголемува повратот, но го надува бројот на предупредувања.

Бодување свесно за контекст

Поправката е бодување на доверба свесно за контекст. Наместо бодување засновано само на совпаѓањето на шемата, системот ја зголемува довербата кога контекстните зборови се наоѓаат близу до совпаѓањето. Исто така ја намалува оценката кога контекстот недостасува.

За откривање на TFN: зборовите како "tax file number", "TFN" или "Australian tax" близу до број ја зголемуваат неговата оценка. Бројот кој ја поминува контролната сума, но нема блиски контекстни зборови, се оценува под прагот за преглед. Лажното предупредување се потиснува.

За меѓујазичен шум: типовите ентитети поврзани со специфични земји може да бидат ограничени на документи на соодветниот јазик. Детектор за TFN ограничен на англиски и австралиско-англиски текст го отстранува шумот. Негово извршување на германска содржина без ограничување е изворот на проблемот.

Третиот слој во хибриден систем е трансформаторски модел. Го чита целиот контекстен прозорец околу секој кандидат. Разликува "Јован Смит, ID на пациент 12345" од код на производ кој се совпаѓа со шема на ime. Контекстот ја разрешува двосмисленоста која regex и контролните суми не можат.

Погледнете како моторот за откривање со три нивоа управува со прецизноста во голем обем. Водичот за повеќејазично откривање на лични податоци покрива kako меѓујазичниот шум влијае на усогласеноста со GDPR.

Практични чекори

Пред да имплементирате која bilo PII алатка, измерете ја нејзината прецизност -- не само повратот.

Извршете ја алатката на збир документи со познати лични податоци и познати не-лични податоци. Пребројте ги предупредувањата во двете групи. Пресметајте true_positives / (true_positives + false_positives). Овој број го открива товарот на прегледување пред да се обврзете за распоредување.

За тимовите кои веќе го користат Presidio, анализата на распределбата на резултатот е брз пат. Извезете примерок на откривања со нивните оценки за доверба. Пребројте колку се под 0,6, 0,7 и 0,8. Голем удел на предупредувања со висока оценка во чист текст сигнализира јаз во контекстот, а не проблем со праг. Прегледот за безбедносна усогласеност објаснува kako да го документирате ова во DPIA.

Извори

Microsoft Presidio GitHub Discussion #1071: систематски лажно позитивни резултати.
Microsoft Presidio GitHub Issue #999: шеми на лажно позитивни резултати на германски јазик.
Alvaro et al. (2024): Прецизност на Presidio на мешано-јазични деловни датасети.
Анализа на прагот на резултат за DICOM -- заедница на Microsoft Presidio.

Поврзани статии

Технички

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

Започнете бесплатен пробен период Погледнете ги карактеристиките

Данокот на лажно позитивни резултати кај PII алатките

Данокот на лажно позитивни резултати кај алатките за откривање на лични податоци

Што покажува Presidio Проблем #1071

Проблемот со прецизност од 22,7%

Бодување свесно за контекст

Практични чекори

Извори

Поврзани статии

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Подготвени да ги заштитите вашите податоци?

Данокот на лажно позитивни резултати кај PII алатките

Данокот на лажно позитивни резултати кај алатките за откривање на лични податоци

Што покажува Presidio Проблем #1071

Проблемот со прецизност од 22,7%

Бодување свесно за контекст

Практични чекори

Извори

Поврзани статии

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Подготвени да ги заштитите вашите податоци?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow