anonym.legal

By · Last updated 2026-06-05

Назад на блоготТехнички

Проблемот со прецизноста на Presidio: 22,7%

Бенчмарк од 2024 година покажа дека препознавачот на имиња на лица на Presidio постигнува прецизност од 22,7% во деловни документи — што значи дека 77,3% од откривањата се лажни позитиви.

June 5, 20267 мин читање
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Проблемот со прецизноста на Presidio: 22,7%

Лажните позитиви при откривањето на PII предизвикуваат вистинска штета. Кога 77,3% од она што вашата алатка го означува како "имиња на лица" не се вистински имиња, не штитите приватност. Ги уништувате податоците.

Бенчмарк од 2024 година го тестираше стандардниот NER модел на Microsoft Presidio на деловни документи. Тестот опфаќаше финансиски извештаи, писма до клиенти, документација за производи и тикети за поддршка. Резултатот: прецизност од 22,7% за откривање на имиња.

Тој број е зачудувачки. За секои 100 означени ставки, 23 се вистински индивидуални имиња. Останатите 77 се лажни позитиви — ознаки на производи, брендови или градови.

Три од четири откривања се погрешни. Тоа не е мало прашање на калибрација. Тоа е сломена алатка за работа со деловни документи.

Зошто се случува ова

Presidio го користи моделот en_core_web_lg на spaCy стандардно. Овој модел учел од новински текст. Во вестите, повеќето сопствени именки се вистински луѓе или места.

Деловните документи се различни.

Ознаки на производи кои изгледаат како индивидуални имиња. "Apple iPhone 15 Pro записи за испорака" се означува како ЛИЦЕ. Исто така "Samsung Galaxy Tab" и "Cisco Meraki распоредување."

Деловни термини со делови слични на имиња. Во "резултати на Johnson Controls", зборот "Johnson" се означува како ЛИЦЕ. "Goldman Sachs портфолио" го предизвикува истата грешка.

Ознаки на локации кои предизвикуваат откривање на лица. "Проект Victoria Harbour" го означува "Victoria" како ЛИЦЕ. "Центар Santiago" го означува "Santiago" на ист начин.

Моделот нема контекст да разликува "Apple" (компанија) од "Apple Smith" (личност). Тој јаз е основата на повеќето лажни позитиви. Новинскиот текст го научил да ги третира сопствените именки како луѓе или места. Деловниот текст ги крши тие правила постојано.

Ефектот надолу по синџирот

Една компанија за податоци го користела Presidio за чистење на анкети на клиенти пред нивно споделување. Ревизија открила четири проблеми. Прво, 40% од анкетите имале погрешно отстранети ознаки на производи. Второ, ознаките на градовите биле избришани од секој одговор. Трето, споменувањата на брендови биле избришани од аналитичкиот сет. Четврто, расположението кон специфични производи не можело да се прочита.

Аналитичкиот тим добил редактиран текст со отстранети сите референци на производи. Анкетата оригинално ги именувала iPhone Pro и Apple полначот. Тоа значење исчезнало.

Фирмата не ја штитела приватноста подобро. Ги уништувала податоците без да добие усогласеност. Presidio бил заменет по ревизијата.

Погледнете го нашиот преглед за усогласеност за тоа како квалитетот на откривање влијае на вашата регулаторна состојба.

Подобар пристап: хибридно откривање

Проблемот не е уникатен за Presidio. NER на ниво на токени без контекст секогаш ќе го има овој проблем. Решението е откривање со свест за контекстот.

Зошто трансформаторите помагаат: Модел како XLM-RoBERTa ја чита целата реченица. "Apple ги соопшти своите приходи" → Apple е фирма. "Apple Smith се придружи на тимот" → Apple е прво име. Контекстот ви кажува кое е кое.

Тоа ја подобрува прецизноста додека ја одржува повратот висок. Погледнете ја споредбата подолу.

ПристапПрецизностПовраток
Presidio стандарден NER22,7%~85%
Само regex~95%~40%
Хибриден (Regex + NLP + Трансформатор)~85%~80%

Хибридниот пристап достигнува прецизност од 85%. Тоа значи стапка на лажни позитиви од 15%. Многу подобро од 77,3%. За деловни документи, овој јаз е важен.

Хибридниот стек има четири чекори:

  1. Слој со regex: Наоѓа структурирани ID — е-пошта, телефонски броеви, SSN, IBAN. Форматите се фиксни, така лажните позитиви се ретки. Ова работи прво.

  2. NLP слој (spaCy): Стандарден NER за луѓе, фирми и места. Висок повраток, пониска прецизност.

  3. Слој со трансформатор (XLM-RoBERTa): Повторно ги оценува секој NLP резултат со користење на целосниот контекст на реченицата. "Apple" во контекст на производ ја губи оценката на ентитет. "Јован" во контекст на жалба ја добива.

  4. Праг на доверливост: Само погодоците над поставената оценка поминуваат на излезот. Зголемете го прагот за аналитички случаи на употреба. Намалете го за HIPAA де-идентификација.

Резултати по преминувањето

Аналитичката фирма премина на хибридно откривање. Добивките биле јасни. Лажните позитиви за ознаки на производи паднале од 40% на 3%. Лажните позитиви за ознаки на градови паднале речиси на нула. Вистинскиот повраток на идентитетот останал на ~82%, малку помал од 85%, но прецизноста значително се подобрила.

Анкетите повторно станале употребливи. "iPhone", "Apple", "Samsung" и "Чикаго" останале во текстот. Имињата на клиентите во контексти на жалби биле правилно отстранети.

Хибридното откривање бара повеќе пресметување. За големи задачи, времето за извршување е малку подолго. За повеќето деловни случаи на употреба, добивката во прецизност вреди. Фирмата повторно можела да ја извршува анализата. Тоа бил целиот смисол на анкетните податоци.

Прочитајте за нашиот пристап за откривање во прегледот за безбедност.

Кога се прифатливи висоски стапки на лажни позитиви

Некои случаи го фаворизираат повратокот над прецизноста.

HIPAA Safe Harbor: Пропуштањето на вистински позитив е прекршување. Стапка на лажни позитиви од 10% е прифатлива ако вистинскиот PHI никогаш не се пропушта. Прекумерното отстранување е побезбедно од недоволното отстранување.

Правен преглед: Пропуштање на привилегиран контакт може да ја откаже привилегијата. Лажните позитиви бараат преглед, но не создаваат одговорност.

Деловна аналитика: Прекумерното отстранување ги уништува податоците без добивка за усогласеност. Прецизноста е поважна тука. Користете хибриден пристап со висок праг на доверливост. Ова ги одржува ознаките на брендови и термините за градови во излезот. Само вистинските имиња на лица се отстрануваат.

Вистинската рамнотежа зависи од вашиот случај на употреба. Алатките кои ви дозволуваат да го поставите прагот ви даваат контрола. Ниту еден стандарден стандард не работи за секој контекст.

Погледнете го нашиот ЧПП за чести прашања за прагови и режими на откривање.

Заклучок

Стапка на прецизност од 22,7% значи дека 3 од 4 откривања се погрешни. За деловни документи, тоа го прави излезот неупотреблив за анализа. Исто така дава лажна доверба во однос на усогласеноста.

Хибридното откривање го поправа ова. Комбинира regex, NLP и оценување со трансформатор. Податоците остануваат корисни по анонимизацијата. Вистинските имиња на лица се отстрануваат. Ознаките на брендови, термините за градови и идентификаторите на производи остануваат.

Ако сте го напуштиле Presidio поради проблеми со лажни позитиви, ова е патот напред. Не нова конфигурација на истиот модел. Различна архитектура изградена за контексти на деловни документи.

Извори

Priva PII Benchmark 2024: Евалуација на прецизноста на Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Поддржани ентитети и архитектура на моделот. VERIFIED-EXTERNAL.

spaCy: Тренинг податоци и ограничувања на en_core_web_lg. VERIFIED-EXTERNAL.

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.