By · Last updated 2026-04-03

Povratak na BlogTehnički

Porez na lazne pozitive PII alata

Presidio GitHub problem #1071 dokumentira sustavne lazne pozitive. Studija iz 2024. pronasla je preciznost od 22,7% u skupovima podataka tvrtki s mijesanim jezicima.

April 3, 20268 min čitanja
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Porez na lazne pozitive PII alata za detekciju

Azurirano za 2026.

Vecina PII alata ocjenjuje se prema odazivu. Odaziv mjeri koji udio stvarnog PII-a alat pronalazi. No preciznost je jednako vazna. Preciznost mjeri koji udio upozorenja alata su stvarni PII.

Niska preciznost je skupa. Sustav s 95% odazivom i 22,7% preciznosti hvata vecinu PII-a. Ipak, za svaki stvarni PII entitet koji oznaci, takoder pokrece 3,4 pogresna upozorenja. U skupu podataka s 10.000 stvarnih PII entiteta, taj sustav generira otprilike 44.000 upozorenja. Oko 34.000 od njih je pogresno. Svako kosta vrijeme za pregled ili uzrokuje prekomjerno crnljenje.

Ovo je porez na lazne pozitive. To su troskovi koje svaki tim placa kada pokrece PII sustav visokog odaziva i niske preciznosti u velikom mjerilu. Izravni trosak je vrijeme recenzenta. Neizravni trosak je gori: prekomjerno ocrnljeni dokumenti skrivaju korisne podatke, usporavaju rad i erodiraju povjerenje u alat.

Sto pokazuje Presidio problem #1071

Microsoft Presidio GitHub rasprava #1071 (2024.) biljezi specificni uzorak. Prepoznavaci TFN (porezni identifikacijski broj) i PCI koriste provjeru kontrolnog zbroja. Brojevi koji prolaze kontrolni zbroj dobivaju ocjenu od 1,0 - maksimalno povjerenje. Nije potreban kontekst PII-a.

Temeljni uzrok: provjera kontekstnih rijeci izvrsava se nakon koraka kontrolnog zbroja, a ne prije. Broj koji prolazi kontrolni zbroj dobiva vrhunsku ocjenu bez obzira na okolni tekst. U financijskim proracunskim tablicama, znanstvenim skupovima podataka ili log datotekama, to preplavljuje izlaz pogresnim upozorenjima. Filtriranje praga ocjene to ne moze popraviti. Ocjene su vec na maksimumu.

Drugi uzorak pojavljuje se u Presidio problemu #999. Njemacka segmentacija rijeci raspada se za slozene imenice. Rijeci poput Bundesbehorde (savezno tijelo) mogu se pogresno podijeliti i oznaciti kao osobna imena. To dodaje sum u svaki njemacki dokument.

Problem preciznosti od 22,7%

Alvaro i sur. (2024.) testirali su Presidio na skupovima podataka tvrtki s mijesanim jezicima. Pronasli su preciznost od 22,7%. U stvarnim dokumentima, manje od jednog od cetiri Presidio upozorenja je stvarni PII entitet. To se podudara s onim sto pruzatelji usluga izvjescuju. Alat podesen samo za odaziv proizvodi previse suma za produkcijsku upotrebu.

Studija DICOM iz 2024. pokazala je da podizanje score_threshold na 0,7 jos uvijek ostavlja pogresna upozorenja u 38 od 39 medicinskih slika. Prag koji cisti sum u jednoj vrsti dokumenta stvara propustene detekcije u drugoj.

Ovo nije problem samo Presidia. Bilo koji fiksni prag namece kompromis. Visoki prag smanjuje sum, ali povecava propuste. Niski prag povecava odaziv, ali napuhuje broj upozorenja.

Ocjenjivanje svjesno konteksta

Popravak je ocjenjivanje povjerenja svjesno konteksta. Umjesto ocjenjivanja samo na temelju podudaranja uzorka, sustav povecava povjerenje kada se kontekstne rijeci pojavljuju blizu podudaranja. Takoder smanjuje ocjenu kada kontekst nedostaje.

Za detekciju TFN-a: rijeci poput "tax file number", "TFN" ili "Australian tax" blizu broja povecavaju njegovu ocjenu. Broj koji prolazi kontrolni zbroj, ali nema obliznjih kontekstnih rijeci, ocjenjuje se ispod praga pregleda. Lazno upozorenje se suzbija.

Za medjujezicni sum: vrste entiteta vezane za specificne drzave mogu biti opsegom ogranicene na dokumente na odgovarajucem jeziku. Detektor TFN-a opsegom ogranicen na engleski i australski engleski uklanja sum. Pokretanje bez opsega na njemackom sadrzaju je izvor problema.

Treci sloj u hibridnom sustavu je transformer model. On cita cijeli kontekstni prozor oko svakog kandidata. Razlikuje "Ivan Horvat, ID pacijenta 12345" od sifre proizvoda koja odgovara uzorku imena. Kontekst razrijesava dvosmislenost koju regex i kontrolni zbrojevi ne mogu.

Pogledajte kako trostupanjski modul za detekciju rukuje preciznoscu u velikom mjerilu. Vodic za visejezicnu PII detekciju pokriva kako medjujezicni sum utjece na GDPR uskladenost.

Prakticni koraci

Prije implementacije bilo kojeg PII alata, izmjerite njegovu preciznost, a ne samo odaziv.

Pokrenite alat na skupu dokumenata s poznatim PII-em i poznatim ne-PII-em. Prebrojite upozorenja u obje grupe. Izracunajte true_positives / (true_positives + false_positives). Ovaj broj otkriva teret pregleda prije nego sto se obvezete na implementaciju.

Za timove koji vec koriste Presidio, analiza raspodjele ocjena je brz put. Izvezite uzorak detekcija s njihovim ocjenama povjerenja. Prebrojite koliko ocjenjuju ispod 0,6, 0,7 i 0,8. Velik udio upozorenja s visokim ocjenama u cistom tekstu signalizira jaz u kontekstu, a ne problem praga. Pregled sigurnosne uskladenosti objasnjava kako ovo dokumentirati u DPIA.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.