anonym.legal

By · Last updated 2026-03-23

Назад към блогаТехнически

Фалшиви позитиви в Presidio: Цената им в правото и здравеопазването

Бенчмарк от 2024 г. установи, че Microsoft Presidio е генерирал 13 536 фалшиво положителни детекции на имена сред 4 434 образца - маркирайки местоимения, имена на кораби и страни като лични имена. Ето какво струва това в правна и здравна среда.

March 23, 20268 мин. четене
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Актуализирано за 2026 г.

Проблемът с 22,7% точност

Проучване от 2024 г. тества Microsoft Presidio върху бизнес файлове. Presidio е инструмент за PII с отворен код. Правни екипи и здравни организации го използват широко.

Проучването измерва колко пъти Presidio е бил прав. От всичките маркирани от него елементи като лични имена, колко са действително лични имена?

Отговорът е 22,7%. Около 77 от всеки 100 маркирания са грешни. Проучването отчита 13 536 фалшиви маркирания в 4 434 образца файлове.

Грешките не са случайни. Следват ясни модели:

  • Местоимения, маркирани като лица ("I" в началото на изречение)
  • Корабни имена, маркирани като лица ("ASL Scorpio")
  • Фирмени имена, маркирани като лица ("Deloitte & Touche")
  • Имена на страни, маркирани като лица ("Argentina", "Singapore")

Нито едно от тях не е рядък граничен случай. Те се появяват всеки път, когато общ NLP модел срещне специализиран текст. Моделът не е създаден да ги различава.

Какво струват фалшивите маркирания

В правна и здравна работа всяко маркиране изисква реакция. Екипите имат три варианта. И трите имат реални разходи.

Вариант 1: Човек проверява всяко маркиране. Времето на адвокати и специалисти струва 200 до 800 долара на час. При 22,7% точност обемът е огромен. Това не е жизнеспособно в мащаб. Вижте PII автоматизация при електронно разкриване и намаляване на разходите за правен преглед за това как разходите за преглед растат с обема.

Вариант 2: Пропуснете прегледа и се доверете на изхода. Това също е рисковано. Когато 77% от "редактираните" елементи не са чувствителни, създавате правен риск. Съдилищата са глобили адвокати за прекомерна редакция. Вижте Санкции при прекомерна редакция в електронното разкриване за документирани случаи.

Вариант 3: Повишете прага на оценката. Presidio позволява на потребителите да задават score_threshold, за да отхвърлят слаби маркирания. Проучване за DICOM от 2024 г. тества това при 0.7 - доста висок стандарт. Резултатът: 38 от 39 DICOM изображения все още имат фалшиви маркирания. Праговете помагат. Не коригират основната причина.

Защо общият NLP се проваля тук

Пропастта в Presidio идва от несъответствие между данните за обучение и реалната употреба.

Правните файлове са пълни с термини с главни букви. Имена на дела, заглавия на закони и кодове на доказателства изглеждат като лични данни за общ модел. Той ги маркира. Повечето не са лични данни.

Здравните файлове добавят имена на лекарства, кодове на устройства и клинични съкращения. "Пт." означава Пациент. "Д-р" означава Доктор. Те объркват детекцията на субекти по начини, трудни за предвиждане.

Финансовите файлове имат кодове на продукти, низове от субекти и идентификатори на сметки, споделящи повърхностни шаблони с лични записи.

Фино настройване на модел с данни от домейна помага. Но изисква време и усилия за изграждане и поддържане.

Как хибридната детекция коригира това

Проблемът с фалшивите маркирания има ясно решение. Разделете работата по тип данни.

Правила за шаблони за структурирани данни. Номерата за социалното осигуряване, телефонните номера, имейл адресите и форматите на идентификатори следват фиксирани правила. Низ или отговаря на шаблона и преминава теста за контролна цифра, или не. Нула фалшиви маркирания за валидни набори от правила.

Езикови модели за свободен текст. Имена и фамилии, фирмени имена и местонахождения в проза нямат твърда структура. NLP ги открива, когато правилата не могат. Оценките на достоверност и проверките за контекст намаляват процента на фалшиви маркирания.

Настройки на оценките за всеки тип за прецизен контрол. Правните екипи, които не могат да рискуват прекомерна редакция, задават високи прагове за размити съвпадения. Изследователските екипи, нуждаещи се от пълно покритие, задават по-ниски. Вижте Бинарна PII детекция и оценки на достоверност за съответствие за начина на работа на нивата на оценки на практика.

Резултатът са много по-малко грешки от стандартните настройки на Presidio. Покритието остава силно там, където правилата самостоятелно биха пропуснали твърде много.

За правните и здравни екипи ключовият въпрос не е дали фалшивите маркирания съществуват. Те винаги съществуват в NLP системи. Въпросът е дали инструментът позволява да зададете, измерите и документирате компромиса.

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.