anonym.legal

By · Last updated 2026-04-03

Назад на блоготТехнички

Данокот на лажно позитивни резултати кај PII алатките

GitHub проблемот #1071 на Presidio документира систематски лажно позитивни резултати. Студија од 2024 откри прецизност од 22,7% во мешано-јазични деловни датасети.

April 3, 20268 мин читање
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Данокот на лажно позитивни резултати кај алатките за откривање на лични податоци

Ажурирано за 2026

Повеќето PII алатки се оценуваат според повратот. Повратот го мери уделот на реалните лични податоци кои алатката ги наоѓа. Но прецизноста е исто толку важна. Прецизноста го мери уделот на предупредувањата на алатката кои навистина се лични податоци.

Ниската прецизност е скапа. Систем со 95% поврат и 22,7% прецизност открива повеќето лични податоци. Сепак, за секој реален ентитет со лични податоци кој го означува, исто така дава 3,4 погрешни предупредувања. Во датасет со 10.000 реални ентитети со лични податоци, тој систем произведува околу 44.000 предупредувања. Околу 34.000 од нив се погрешни. Секое чини време за прегледување или предизвикува претерано редактирање.

Тоа е данокот на лажно позитивни резултати. Тоа е режиски трошок кој секој тим го плаќа кога работи PII систем со висок поврат и ниска прецизност во голем обем. Директниот трошок е времето на рецензентот. Индиректниот трошок е полош: претерано редактираните документи кријат корисни податоци, го успоруваат работата и ја нарушуваат довербата во алатката.

Што покажува Presidio Проблем #1071

Discussion #1071 на Microsoft Presidio на GitHub (2024) документира специфичен образец. Препознавачите на TFN (даночен broj на фајлот) и PCI користат валидација на контролна сума. Броевите кои ја поминуваат контролната сума добиваат резултат 1,0 -- максимална доверба. Не е потребен контекст на лични податоци.

Основната причина: проверката на контекстни зборови се извршува после чекорот со контролна сума, не пред него. Бројот кој ја поминува контролната сума добива врвен резултат без оглед на околниот текст. Во финансиски табели, научни датасети или лог фајлови, ова го поплавува излезот со погрешни предупредувања. Филтрирањето со праг на резултат не може да го поправи ова. Резултатите веќе се на максимум.

Втор образец се јавува во Presidio проблем #999. Германската сегментација на зборови не успева за сложени именки. Зборови како Bundesbehörde (сојузен орган) може да бидат погрешно поделени и означени како лични имиња. Ова додава шум во секој документ на германски јазик.

Проблемот со прецизност од 22,7%

Alvaro et al. (2024) го тестираа Presidio на мешано-јазични деловни датасети. Откри 22,7% прецизност. Во реални документи, помалку од едно од четири Presidio предупредувања е реален ентитет со лични податоци. Ова соодветствува со она што практичарите го пријавуваат. Алатка подесена само за поврат произведува преголем шум за употреба во производство.

Студија за DICOM од 2024 покажа дека зголемувањето на score_threshold на 0,7 сепак оставало погрешни предупредувања во 38 од 39 медицински слики. Праг кој го исчистува шумот во еден тип документи создава пропуштени откривања во друг.

Тоа не е проблем само на Presidio. Секој фиксен праг наметнува компромис. Висок праг го намалува шумот, но ги зголемува пропустите. Низок праг го зголемува повратот, но го надува бројот на предупредувања.

Бодување свесно за контекст

Поправката е бодување на доверба свесно за контекст. Наместо бодување засновано само на совпаѓањето на шемата, системот ја зголемува довербата кога контекстните зборови се наоѓаат близу до совпаѓањето. Исто така ја намалува оценката кога контекстот недостасува.

За откривање на TFN: зборовите како "tax file number", "TFN" или "Australian tax" близу до број ја зголемуваат неговата оценка. Бројот кој ја поминува контролната сума, но нема блиски контекстни зборови, се оценува под прагот за преглед. Лажното предупредување се потиснува.

За меѓујазичен шум: типовите ентитети поврзани со специфични земји може да бидат ограничени на документи на соодветниот јазик. Детектор за TFN ограничен на англиски и австралиско-англиски текст го отстранува шумот. Негово извршување на германска содржина без ограничување е изворот на проблемот.

Третиот слој во хибриден систем е трансформаторски модел. Го чита целиот контекстен прозорец околу секој кандидат. Разликува "Јован Смит, ID на пациент 12345" од код на производ кој се совпаѓа со шема на ime. Контекстот ја разрешува двосмисленоста која regex и контролните суми не можат.

Погледнете како моторот за откривање со три нивоа управува со прецизноста во голем обем. Водичот за повеќејазично откривање на лични податоци покрива kako меѓујазичниот шум влијае на усогласеноста со GDPR.

Практични чекори

Пред да имплементирате која bilo PII алатка, измерете ја нејзината прецизност -- не само повратот.

Извршете ја алатката на збир документи со познати лични податоци и познати не-лични податоци. Пребројте ги предупредувањата во двете групи. Пресметајте true_positives / (true_positives + false_positives). Овој број го открива товарот на прегледување пред да се обврзете за распоредување.

За тимовите кои веќе го користат Presidio, анализата на распределбата на резултатот е брз пат. Извезете примерок на откривања со нивните оценки за доверба. Пребројте колку се под 0,6, 0,7 и 0,8. Голем удел на предупредувања со висока оценка во чист текст сигнализира јаз во контекстот, а не проблем со праг. Прегледот за безбедносна усогласеност објаснува kako да го документирате ова во DPIA.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.