By · Last updated 2026-03-23

Povratak na BlogTehnički

Lažno pozitivni: Zašto ML redakcija ne uspijeva

Benchmark iz 2024. pokazao je da je Presidio generirao 13 536 lažno pozitivnih otkrivanja imena u 4 434 uzorka — označavajući zamjenice, nazive brodova i nazive zemalja kao imena osoba. Evo što to košta u pravnom i zdravstvenom okruženju.

March 23, 20268 min čitanja
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Ažurirano za 2026.

Problem preciznosti od 22,7%

Istraživanje iz 2024. testiralo je Microsoft Presidio na poslovnim datotekama. Presidio je open-source alat za PII. Pravni timovi i zdravstvene organizacije ga naširoko koriste.

Istraživanje je mjerilo koliko često je Presidio bio u pravu. Od svih stavki koje je označio kao imena osoba, koliko je stvarno bila imena osoba?

Odgovor je bio 22,7%. Otprilike 77 od svake 100 oznaka bile su pogrešne. Istraživanje je prebrojalo 13 536 lažnih oznaka u 4 434 uzornih datoteka.

Greške nisu bile nasumične. Slijedile su jasne obrasce:

  • Zamjenice označene kao osobe ("I" na početku rečenice)
  • Oznake brodova označene kao osobe ("ASL Scorpio")
  • Nazivi tvrtki označeni kao osobe ("Deloitte & Touche")
  • Nazivi zemalja označeni kao osobe ("Argentina", "Singapore")

Nijedan od ovih nije rijedak rubni slučaj. Pojavljuju se svaki put kada se opći NLP model susretne s domenski specifičnim tekstom. Model nije izgrađen da ih razlikuje.

Što lažne oznake koštaju

U pravnom i zdravstvenom radu, svaka oznaka zahtijeva reakciju. Timovi se suočavaju s tri opcije. Sve tri imaju stvarne troškove.

Opcija 1: Čovjek provjerava svaku oznaku. Odvjetničko i stručno vrijeme košta 200 do 800 USD na sat. Pri točnosti od 22,7%, volumen je ogroman. Ovo nije izvedivo u velikom mjerilu. Pogledajte Automatizacija PII-a u e-otkrivanju i smanjenje troškova pravnog pregleda za to kako troškovi pregleda rastu s volumenom.

Opcija 2: Preskočite pregled i vjerujte izlazu. To je također rizično. Kada 77% "redaktiranih" stavki nije osjetljivo, stvarate pravni rizik. Sudovi su kaznili odvjetnike za prekomjernu redakciju. Pogledajte Sankcije e-otkrivanja za prekomjernu redakciju za dokumentirane slučajeve.

Opcija 3: Podignite prag ocjene. Presidio korisnicima omogućuje postavljanje score_threshold za odbacivanje slabih oznaka. Istraživanje DICOM iz 2024. testiralo je to na 0,7 — prilično visoka ljestvica. Rezultat: 38 od 39 DICOM slika i dalje imalo je lažne oznake. Pragovi pomažu. Ne rješavaju temeljni uzrok.

Zašto se opći NLP ovdje muči

Presidio jaz dolazi iz nesukladnosti između podataka za treniranje i stvarne upotrebe.

Pravne datoteke pune su pojmova s velikim slovima. Nazivi predmeta, naslovi zakona i kodovi izložaka svi izgledaju kao osobni podaci za opći model. Označava ih. Većina to nisu osobni podaci.

"Pt." znači Pacijent. "Dr." znači Doktor — zdravstvene datoteke dodaju nazive lijekova, šifre uređaja i kliničke kratice. Ovo ometa detekciju entiteta na načine koje je teško predvidjeti.

Financijske datoteke imaju šifre proizvoda, identifikacijske nizove entiteta i ID-ove računa koji dijele površne obrasce s osobnim zapisima.

Fino podešavanje modela na domenskim podacima pomaže. No potrebno je vrijeme i trud za izgradnju i održavanje ažuriranosti.

Kako hibridna detekcija to popravlja

Problemu s lažnim oznakama postoji jasno rješenje. Podijelite posao po vrsti podataka.

Pravila uzoraka za strukturirane podatke. Matični brojevi, telefonski brojevi, adrese e-pošte i formati ID-ova slijede fiksna pravila. Niz ili odgovara uzorku i prolazi test kontrolne znamenke, ili ne odgovara. Nula lažnih oznaka za valjane skupove pravila.

Jezični modeli za slobodan tekst. Imena i prezimena, nazivi tvrtki i lokacije u prozi nemaju krutu strukturu. NLP ih pronalazi kada pravila ne mogu. Ocjene pouzdanosti i provjere konteksta smanjuju stopu lažnih oznaka.

Postavke ocjena po vrsti za fino upravljanje. Pravni timovi koji ne mogu riskirati prekomjernu redakciju postavljaju visoke pragove za fuzzy podudaranja. Istraživački timovi kojima treba visoki opseg pokrivenosti postavljaju niže. Pogledajte Binarna detekcija PII-a i ocjenjivanje pouzdanosti za usklađenost za to kako razine ocjena funkcioniraju u praksi.

Rezultat je daleko manje grešaka od Presidio zadanih postavki. Opseg pokrivenosti ostaje jak tamo gdje bi pravila sama propuštala previše.

Za pravne i zdravstvene timove, ključno pitanje nije postoje li lažne oznake. One uvijek postoje u NLP sustavima. Pitanje je dopušta li alat postavljanje, mjerenje i dokumentiranje tog kompromisa.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.