By · Last updated 2026-03-23

Atpakaļ uz BloguTehniskā

Viltus pozitīvi: kāpēc ML redakcija neizdodas

2024. gada etalonā tika atklāts, ka Presidio radīja 13 536 viltus pozitīvus vārdu detektēšanas gadījumus 4 434 paraugos - marķējot vietniekvārdus, kuģu nosaukumus un valstis kā personas vārdus. Lūk, ko tas izmaksā juridiskajos un veselības aprūpes aprūpes vides.

March 23, 20268 min lasīšanai
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

Atjaunots 2026. gadam

22,7% precizitātes problēma

  1. gada pētījums pārbaudīja Microsoft Presidio uzņēmumu failos. Presidio ir atvērtā koda PII rīks. To plaši izmanto juridiskās komandas un veselības grupas.

Pētījums mērīja, cik bieži Presidio bija pareizi. No visiem vienumiem, ko tas atzīmēja kā personas vārdus, cik bija faktiski personas vārdi?

Atbilde bija 22,7%. Aptuveni 77 no katriem 100 karodziņiem bija nepareizi. Pētījums saskaitīja 13 536 nepareizus karodziņus 4 434 parauga failos.

Kļūdas nebija nejaušas. Tās sekoja skaidriem modeļiem:

  • Vietniekvārdi atzīmēti kā cilvēki ("Es" teikuma sākumā)
  • Kuģu etiķetes atzīmētas kā cilvēki ("ASL Scorpio")
  • Uzņēmumu etiķetes atzīmētas kā cilvēki ("Deloitte & Touche")
  • Valstu termini atzīmēti kā cilvēki ("Argentina", "Singapore")

Neviena no tām nav reta mala situācija. Tās parādās katru reizi, kad vispārīgs NLP modelis sastopas ar nozarei specifiskiem tekstiem. Modelis netika veidots, lai tās atšķirtu.

Ko izmaksā viltus karodziņi

Juridiskajos un veselības aprūpes darbos katrs karodziņš prasa reaģēšanu. Komandas saskaras ar trim iespējām. Visām trim ir reālas izmaksas.

1. iespēja: cilvēks pārbauda katru karodziņu. Jurista un eksperta laiks izmaksā 200 līdz 800 USD stundā. Pie 22,7% precizitātes apjoms ir milzīgs. Tas nav iespējams mērogā. Skat. eAtklāšanas PII automatizācija un juridiskās pārskatīšanas izmaksu samazināšana par to, kā pārskatīšanas izmaksas pieaug ar apjomu.

2. iespēja: izlaist pārskatīšanu un uzticēties izvadei. Tas arī ir riskanti. Kad 77% "redaktēto" vienumu nav sensitīvi, jūs radāt juridisko risku. Tiesas ir sodījušas juristus par pārmērīgu redakciju. Skat. eAtklāšanas pārmērīgas redakcijas sankcijas dokumentētiem gadījumiem.

3. iespēja: paaugstināt rādītāju slieksni. Presidio ļauj lietotājiem iestatīt score_threshold, lai noņemtu vājus karodziņus. 2024. gada DICOM pētījums to pārbaudīja pie 0,7 - diezgan augsta josla. Rezultāts: 38 no 39 DICOM attēliem joprojām bija viltus karodziņi. Sliekšņi palīdz. Tie nenovērš cēloni.

Kāpēc vispārīgais NLP šeit cīnās

Presidio plaisa rodas no neatbilstības starp apmācības datiem un reālo lietojumu.

Juridiskie faili ir pilni ar lielo burtu terminiem. Lietu nosaukumi, likumu virsraksti un eksponātu kodi liekas kā personas dati vispārīgam modelim. Tas tos atzīmē. Lielākā daļa nav personas dati.

Veselības faili pievieno zāļu nosaukumus, ierīču kodus un klīniskus saīsinājumus. "Pt." nozīmē pacients. "Dr." nozīmē ārsts. Tie traucē entītiju detektēšanu veidā, ko ir grūti paredzēt.

Finanšu failos ir produktu kodi, entītiju virknes un kontu ID, kas dala virsmas modeļus ar personas ierakstiem.

Modeļa precizēšana uz nozares datiem palīdz. Bet tas prasa laiku un pūles, lai izveidotu un uzturētu.

Kā hibrīdā detektēšana to novērš

Viltus karodziņu problēmai ir skaidrs risinājums. Sadaliet darbu pēc datu tipa.

Modeļu noteikumi strukturētiem datiem. Sociālās apdrošināšanas numuri, tālruņu numuri, e-pasta adreses un ID formāti atbilst fiksētiem noteikumiem. Virkne vai atbilst modelim un iztur kontrolcipara testu, vai ne. Nulle viltus karodziņu derīgu noteikumu kopās.

Valodas modeļi brīvam tekstam. Vārdi, uzvārdi, uzņēmumu etiķetes un atrašanās vietas prozā nav stingras struktūras. NLP tos atrod, kad noteikumi nevar. Ticamības rādītāji un konteksta pārbaudes samazina viltus karodziņu rādītāju.

Tipa rādītāju iestatījumi precīzai kontrolei. Juridiskās komandas, kas nevar riskēt ar pārmērīgu redakciju, iestata augstus sliekšņus neskaidriem sakritībām. Pētniecības komandas, kurām nepieciešama augsta atsaukšana, iestata zemākus. Skat. Binārā PII detektēšana un ticamības rādītāji atbilstībai par to, kā rādītāju līmeņi darbojas praksē.

Rezultāts ir daudz mazāk kļūdu nekā Presidio noklusēšanas iestatījumos. Atsaukšana joprojām ir spēcīga tur, kur noteikumi vieni paši palaist pārāk daudz.

Juridiskajām un veselības komandām galvenais jautājums nav tas, vai viltus karodziņi pastāv. Tie vienmēr pastāv NLP sistēmās. Jautājums ir par to, vai rīks ļauj iestatīt, mērīt un dokumentēt kompromisu.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.