anonym.legal

By · Last updated 2026-03-23

Назад на блоготТехнички

Лажни позитиви на Presidio: Зошто ML редакцијата не успева

Бенчмарк од 2024 година откри дека Presidio генерирал 13.536 лажни позитивни детекции на имиња низ 4.434 примероци - означувајќи заменки, имиња на бродови и земји како лични имиња. Еве колку тоа чини во правни и здравствени средини.

March 23, 20268 мин читање
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Ажурирано за 2026 година

Проблемот со прецизноста 22,7%

Студија од 2024 година го тестирала Microsoft Presidio на деловни досиеа. Presidio е алатка за ЛЛИ со отворен код. Правните тимови и здравствените групи го користат широко.

Студијата мерела колку често Presidio бил во право. Од сите ставки кои ги означил како лични имиња, колку биле всушност лични имиња?

Одговорот бил 22,7%. Околу 77 од секои 100 ознаки биле погрешни. Студијата избројала 13.536 лажни ознаки низ 4.434 примерочни досиеа.

Грешките не биле случајни. Следеле јасни шаблони:

  • Заменки означени како луѓе ("Јас" на почетокот на реченица)
  • Ознаки на бродови означени како луѓе ("ASL Scorpio")
  • Ознаки на компании означени како луѓе ("Deloitte & Touche")
  • Термини за земји означени како луѓе ("Аргентина", "Сингапур")

Ниту едно од нив не е ретко рабен случај. Тие се појавуваат секогаш кога општ NLP модел се сретнува со текст специфичен за домен. Моделот не бил изграден за да ги разликува.

Колку чинат лажните ознаки

Во правна и здравствена работа, секоја ознака бара одговор. Тимовите се соочуваат со три опции. Сите три имаат реални трошоци.

Опција 1: Човек проверува секоја ознака. Времето на адвокатите и стручњаците чини 200 до 800 американски долари на час. При прецизност од 22,7%, обемот е огромен. Ова не е одржливо во голем обем. Видете Автоматизација на ЛЛИ за e-Discovery и намалување на трошоците за правен преглед за тоа како трошоците за преглед растат со обемот.

Опција 2: Прескокнете го прегледот и верувајте му на излезот. Ова исто така е ризично. Кога 77% од "редактираните" ставки не се чувствителни, создавате правен ризик. Судовите изрекле глоби на адвокати за прекумерна редакција. Видете Санкции за прекумерна редакција при e-Discovery за документирани случаи.

Опција 3: Зголемете го прагот на оценката. Presidio им овозможува на корисниците да постават score_threshold за отфрлање на слаби ознаки. Студија на DICOM од 2024 година го тестирала ова на 0,7 - прилично висока лента. Резултатот: 38 од 39 DICOM слики сè уште имале лажни ознаки. Праговите помагаат. Тие не ја поправаат основната причина.

Зошто општиот NLP се бори тука

Јазот на Presidio произлегува од несовпаѓање меѓу податоците за обука и употребата во реалниот свет.

Правните досиеа се полни со термини со голема буква. Имиња на случаи, наслови на закони и кодови на изложби изгледаат како лични податоци за општ модел. Тој ги означува. Повеќето не се лични податоци.

Здравствените досиеа додаваат имиња на лекови, кодови на уреди и клинички кратенки. "Pt." значи Пациент. "Dr." значи Доктор. Тие ја попречуваат детекцијата на ентитети на начини кои е тешко да се предвидат.

Финансиските досиеа имаат кодови на производи, низи на ентитети и ID-а на сметки кои споделуваат површински шаблони со лични записи.

Фино дотерување на модел на доменски податоци помага. Но потребува време и труд за изградба и одржување.

Како хибридната детекција го поправа ова

Проблемот со лажните ознаки има јасно решение. Поделете ја работата по тип на податоци.

Шаблонски правила за структурирани податоци. Броевите на социјалното осигурување, телефонските броеви, имејл адресите и форматите на документи за идентификација следат фиксни правила. Низа или се вклопува во шаблонот и ја поминува проверката на контролната цифра, или не. Нула лажни ознаки за валидни сетови правила.

Јазични модели за слободен текст. Имиња и презимиња, ознаки на компании и локации во проза немаат ригидна структура. NLP ги наоѓа кога правилата не можат. Оценките на доверба и проверките на контекст ја намалуваат стапката на лажни ознаки.

Поставки за оценки по тип за финна контрола. Правни тимови кои не можат да ризикуваат прекумерна редакција поставуваат високи прагови за нејасни совпаѓања. Истражувачките тимови кои имаат потреба од висок опфат поставуваат пониски. Видете Бинарно откривање ЛЛИ и оценување на доверба за усогласеност за тоа како нивоата на оценки функционираат на практика.

Резултатот е многу помалку грешки отколку стандардните поставки на Presidio. Опфатот останува силен таму каде самите правила би пропуштиле премногу.

За правните и здравствените тимови, клучното прашање не е дали лажните ознаки постојат. Тие секогаш постојат во NLP системи. Прашањето е дали алатката ви овозможува да ја поставите, мерите и документирате компромисот.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.