anonym.legal

By · Last updated 2026-06-05

Назад към блогаТехнически

Проблемът с точността от 22,7% при Presidio

Бенчмарк от 2024 г. установи, че разпознавателят на лични имена в Presidio постига 22,7% точност при бизнес документи -- което означава, че 77,3% от засечените резултати са фалшиви положителни.

June 5, 20267 мин. четене
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Проблемът с точността от 22,7% при Presidio

Фалшивите положителни резултати при разпознаване на PII данни причиняват реални щети. Когато 77,3% от това, което инструментът ви маркира като "лични имена", не са реални имена, вие не защитавате поверителността. Вие унищожавате данни.

Бенчмарк от 2024 г. тества стандартния NER модел на Microsoft Presidio върху бизнес документи. Тестът обхвана финансови отчети, клиентски писма, продуктова документация и заявки за поддръжка. Резултатът: 22,7% точност при разпознаване на имена.

Това число е поразително. За всеки 100 маркирани елемента, 23 са реални индивидуални имена. Останалите 77 са фалшиви положителни резултати -- продуктови етикети, търговски марки или наименования на градове.

Три от четири засичания са грешни. Това не е незначителен проблем с калибрирането. Това е неизправен инструмент за работа с бизнес документи.

Защо се случва това

Presidio използва по подразбиране модела en_core_web_lg на spaCy. Този модел е обучен върху новинарски текст. В новините повечето собствени имена са реални хора или места.

Бизнес документите са различни.

Продуктови етикети, които приличат на лични имена. "Apple iPhone 15 Pro shipment records" се маркира като PERSON. Същото важи за "Samsung Galaxy Tab" и "Cisco Meraki deployment".

Фирмени термини с части, подобни на имена. В "Johnson Controls results" думата "Johnson" се маркира като PERSON. "Goldman Sachs portfolio" предизвиква същата грешка.

Местни названия, задействащи разпознаване на лица. "Victoria Harbour project" маркира "Victoria" като PERSON. "Santiago hub" маркира "Santiago" по същия начин.

Моделът не притежава контекста, за да разграничи "Apple" (компания) от "Apple Smith" (лице). Тази разлика е в основата на повечето фалшиви положителни резултати. Новинарският текст го е научил да третира собствените имена като хора или места. Бизнес текстът нарушава това правило постоянно.

Ефектът надолу по веригата

Една компания за данни използва Presidio, за да почиства клиентски анкети преди да ги споделя. Одитът откри четири проблема. Първо, 40% от анкетите имаха неправилно премахнати продуктови етикети. Второ, наименованията на градове бяха изтрити от всеки отговор. Трето, споменаванията на марки бяха изтрити от аналитичния набор. Четвърто, настроенията към конкретни продукти не можеха да се разчетат.

Аналитичният екип получи редактиран текст с премахнати всички препратки към продукти. Анкетата първоначално споменаваше iPhone Pro и зарядното устройство на Apple. Тоа значение беше изгубено.

Фирмата не защитаваше поверителността по-добре. Унищожаваше данни без да постига съответствие. Presidio беше заменен след одита.

Вижте нашия преглед на съответствието за това как качеството на разпознаването влияе на регулаторния ви статус.

По-добър подход: хибридно разпознаване

Проблемът не е уникален за Presidio. NER на ниво токен без контекст винаги ще има този проблем. Решението е разпознаване, отчитащо контекста.

Защо трансформерите помагат: Модел като XLM-RoBERTa чете цялото изречение. "Apple announced its earnings" --> Apple е фирма. "Apple Smith joined the team" --> Apple е собствено име. Контекстът казва кое е кое.

Това подобрява точността при поддържане на висок recall. Вижте сравнението по-долу.

ПодходТочностRecall
Presidio стандартен NER22,7%~85%
Само regex~95%~40%
Хибриден (Regex + NLP + Transformer)~85%~80%

Хибридният подход достига 85% точност. Това означава 15% фалшиви положителни резултати. Много по-добре от 77,3%. За бизнес документи тази разлика е от значение.

Хибридният стек има четири стъпки:

  1. Regex слой: Открива структурирани идентификатори -- имейли, телефонни номера, SSN, IBAN. Форматите са фиксирани, затова фалшивите положителни резултати са редки. Изпълнява се първо.

  2. NLP слой (spaCy): Стандартен NER за хора, фирми и места. Висок recall, по-ниска точност.

  3. Transformer слой (XLM-RoBERTa): Преоценява всеки NLP резултат, използвайки пълния контекст на изречението. "Apple" в продуктов контекст губи своя резултат като обект. "John" в текст за оплакване го добива.

  4. Праг на доверие: Само резултати над определена оценка преминават към изхода. Повишете прага за аналитични случаи. Понижете го за деидентификация по HIPAA.

Резултати след преминаване

Аналитичната фирма премина към хибридно разпознаване. Печалбите бяха ясни. Фалшивите положителни резултати за продуктови етикети спаднаха от 40% до 3%. Фалшивите положителни резултати за наименования на градове паднаха почти до нула. Реалният recall на идентичности остана на ~82%, малко под 85%, но точността се подобри значително.

Анкетите станаха отново използваеми. "iPhone", "Apple", "Samsung" и "Chicago" останаха в текста. Имената на клиенти в контекст на оплаквания бяха правилно премахнати.

Хибридното разпознаване изисква повече изчисления. При големи задачи времето за изпълнение е малко по-дълго. За повечето бизнес случаи печалбата в точността си заслужава. Фирмата можеше да провежда анализ отново. Това беше цялата цел на анкетните данни.

Прочетете за нашия подход за разпознаване в прегледа на сигурността.

Кога високите проценти на фалшиви положителни резултати са приемливи

Някои случаи поставят recall над точността.

HIPAA Safe Harbor: Пропускането на реален положителен резултат е нарушение. Процент от 10% фалшиви положителни резултати е приемлив, ако реалните PHI данни никога не се пропускат. Прекомерното премахване е по-безопасно от недостатъчното.

Правен преглед: Пропускането на привилегирован контакт може да отмени привилегията. Фалшивите положителни резултати изискват преглед, но не създават отговорност.

Бизнес анализи: Прекомерното премахване поврежда данните без да носи полза за съответствието. Точността е по-важна тук. Използвайте хибриден подход с висок праг на доверие. Това запазва марковите етикети и наименованията на градовете в резултата. Само реалните лични имена се премахват.

Правилният баланс зависи от случая на употреба. Инструментите, позволяващи настройка на прага, ви дават контрол. Никой стандартен праг не е подходящ за всеки контекст.

Вижте нашите FAQ за чести въпроси относно праговете и режимите на разпознаване.

Заключение

Процент на точност от 22,7% означава, че 3 от 4 засичания са грешни. За бизнес документи това прави резултата неизползваем за анализ. Дава и фалшива увереност за съответствие.

Хибридното разпознаване решава това. Комбинира regex, NLP и transformer оценяване. Данните остават полезни след анонимизирането. Реалните лични имена се премахват. Марковите етикети, наименованията на градовете и продуктовите идентификатори остават.

Ако сте напуснали Presidio поради проблеми с фалшивите положителни резултати, това е пътят напред. Не нова конфигурация на същия модел. Различна архитектура, създадена за контекста на бизнес документи.

Източници

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.