By · Last updated 2026-04-03

Atgal į BlogąTechninė

AAS Aptikimo Priemoniu Klaidingo Teigiamo Mokestis

Presidio GitHub problema #1071 dokumentuoja sistemingus klaidingus teigiamus. 2024 m. tyrimas nustate 22,7% tiksluma misriu kalbu imone duomenu rinkiniuose.

April 3, 20268 min skaityti
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

AAS Aptikimo Priemoniu Klaidingo Teigiamo Mokestis

Atnaujinta 2026 m.

Dauguma AAS priemoniu vertinamos pagal atpazistamuma. Atpazistamumas matuoja, kiek tikro AAS priemone randa. Taciau tikslumas svarbus lygiai taip pat. Tikslumas matuoja, kiek priemones ispejdimu yra tikras AAS.

Mazas tikslumas brangiai kainuoja. Sistema su 95% atpazistamumu ir 22,7% tikslumu pagauna dauguma AAS. Taciau uz kiekviena tikra AAS esybe, kuria ji pazymi, ji taip pat kelia 3,4 klaidingus perspejimus. Duomenu rinkinyje su 10 000 tikru AAS esybiu ta sistema paleidzia mazdaug 44 000 perspejdimu. Apie 34 000 ju yra neteisingi. Kiekvienas kainuoja perzurejimo laika arba sukelia per dideli redagavima.

Tai yra klaidingo teigiamo mokestis. Tai yra papildomos isnaudos, kurias bet kuri komanda moka, kai paleidzia auksto atpazistamumum, mazos tikslumo AAS sistema didesniu mastu. Tiesiogine kaina yra perzuretojo laikas. Netiesiogineis kaina yra blogesneis: per daug redaguoti dokumentai slep naudingus duomenis, letina darba ir erodo pasitikejima priemone.

Ka Presidio Problema #1071 Rodo

Microsoft Presidio GitHub diskusija #1071 (2024 m.) dokumentuoja konkretu sablona. TFN (Australijos Mokesciu Bylos Numerio) ir PCI atpazintuvas naudoja kontrolines sumos validacija. Numeriai, praejantys kontroline suma, gauna 1,0 balo - maksimalaus pasitikejimo. Joks AAS kontekstas nereikalingas.

Saknes priezastis: konteksto zodziu tikrinimas vykdomas po kontrolines sumos zingsnio, ne pries ji. Numeris, praejantis kontroline suma, gauna auksciausia bala nepriklausomai nuo aplinkinio teksto. Finansiniuose skaiciuoklese, mokslinese duomenu rinkiniuose ar zurnaluose, tai uztvindu isvesties klaidingais perspejimais. Balo slenkscio filtravimas to negali istaisyti. Balai jau yra maksimalus.

Antras sablanas pasirodo Presidio problemoje #999. Vokisku zodziu segmentavimas subyra sudurtiniams daiktavardeiams. Tokie zodziai kaip Bundesbehorde (federaline institucija) gali buti neteisingai padalinti ir pazymeti kaip asmenines vardes. Tai prideda triuksminga bet kuriame vokisku kalba dokumente.

22,7% Tikslumo Problema

Alvaro ir kiti (2024 m.) isme Presidio misriu kalbu imones duomenu rinkiniuose. Jie nustate 22,7% tiksluma. Tikruose dokumentuose maziau nei vienas is keturiu Presidio perspejdimu yra tikra AAS esybe. Tai atitinka tai, ka pranesa praktikai. Priemone, derinamas tik pagal atpazistamuma, gamina per daug triuksmo gamybos naudojimui.

2024 m. DICOM tyrimas parode, kad keliant score_threshold iki 0,7 vis tiek liko klaidingos perspejdimai 38 is 39 medicininiu atvaizdu. Slenkstis, valantis triuksma viename dokumento tipe, sukuria praleidimu kitame.

Tai nera tik Presidio problema. Bet koks fiksuotas slenkstis vercia pasirinkti. Auktas slenkstis mazina triuksma, bet kelia pralelimus. Zemas slenkstis kelia atpazistamuma, bet sufliuoja perspejdimu skaiciumi.

Nuo Konteksto Priklausantis Balo Skaiciavimas

Sprendimas yra nuo konteksto priklausantis pasitikejimo balo skaiciavimas. Vietoj to, kad balo pagristumas bitu tik sablonas, sistema padidina pasitikejima, kai konteksto zodziai pasirodo salia atitikmens. Ji taip pat mazone bala, kai kontekstas nera.

Del TFN aptikimo: zodziai kaip "mokesciu bylos numeris", "TFN" arba "Australijos mokesciai" salia numerio padidina jo bala. Numeris, praejantis kontroline suma, bet neturintis artimojo konteksto zodziu, gauna bala ziau perzurejimo slenksciu. Netikrasis perspejimas yra suslegnamas.

Del kryzmines kalbos triuksmo: esybiu tipai, susijus su konkretiomis salimis, gali buti apriboti atitinkancios kalbos dokumentams. TFN detektorius, apribotas anglu ir Australijos-anglu tekstu, pasalina triuksma. Paleidimas su vokisku turiniu be apribojimo yra problemos saltinis.

Trecias sluoksnis hibridinese sistemose yra transformeriu modelis. Jis skaito visa konteksto langa aplink kiekviena kandidata. Jis skiria "Jona Smita, Paciento ID 12345" nuo produkto kodo, atitinkancio vardo sablona. Kontekstas issprend ia dviprasmybe, kurios regex ir kontrolines sumos negali.

Ziurekite, kaip trijuu pakopiu aptikimo variklis tvarko tiksluma didesniu mastu. Daugiakalbio AAS aptikimo vadovas apraso, kaip kryzmines kalbos triuksmas veikia BDAR atitikima.

Praktiniai Zingsniai

Pries diegiant bet kuria AAS priemone, imatuokite jo tiksluma - ne tik atpazistamuma.

Paleiskite priemone su dokumentu rinkiniu su zinomais AAS ir zinomais ne-AAS. Suskaiciuokite perspejimus abiejose grupese. Apskaiciuokite true_positives / (true_positives + false_positives). Sis skaicius atskleidzia perzurejimo nasta pries isipareigojima diegimui.

Komandoms, jau naudojancioms Presidio, balo distribucijos analize yra greitas kelias. Eksportuokite aptikimu imti su ju pasitikejimo balais. Suskaiciuokite, kiek skaiciu gauna balu ziau 0,6, 0,7 ir 0,8. Didele dalis auksto balu perspejdimu varin tekste signalizuoja konteksto spraga, o ne slenksciu problema. Saugumo atitikties apzvalga paaiksina, kaip tai dokumentuoti DPIA.

Saltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.