anonym.legal

By · Last updated 2026-04-03

Înapoi la BlogTehnic

Taxa Fals-Pozitiva a Instrumentelor PII

Presidio GitHub issue #1071 documenteaza fals-pozitive sistematice. Un studiu din 2024 a gasit 22,7% precizie in seturile de date enterprise multilingve.

April 3, 20268 min citire
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Taxa Fals-Pozitiva a Instrumentelor de Detectie PII

Actualizat pentru 2026

Cele mai multe instrumente PII sunt judecate dupa rata de recuperare. Rata de recuperare masoara ce proportie din PII-ul real gaseste instrumentul. Dar precizia conteaza la fel de mult. Precizia masoara ce proportie din alertele instrumentului sunt PII real.

Precizia scazuta este costisitoare. Un sistem cu 95% rata de recuperare si 22,7% precizie prinde mare parte din PII. Totusi, pentru fiecare entitate PII reala pe care o marcheaza, ridica si 3,4 alerte gresite. Intr-un set de date cu 10.000 de entitati PII reale, acel sistem declanseaza aproximativ 44.000 de alerte. Aproximativ 34.000 dintre ele sunt gresite. Fiecare costa timp pentru revizuire sau cauzeaza supra-redactare.

Aceasta este taxa fals-pozitiva. Este costul suplimentar pe care orice echipa il plateste cand ruleaza un sistem PII cu rata de recuperare ridicata si precizie scazuta la scara. Costul direct este timpul recenzorilor. Costul indirect este mai rau: documentele supra-redactate ascund date utile, incetinesc munca si erodeaza increderea in instrument.

Ce Arata Problema Presidio #1071

Discutia #1071 de pe GitHub Microsoft Presidio (2024) inregistreaza un tipar specific. Recunoastaoarele TFN (Tax File Number) si PCI folosesc validarea prin suma de control. Numerele care trec suma de control primesc un scor de 1,0 - incredere maxima. Nu este necesara nicio verificare a contextului PII.

Cauza principala: verificarea cuvintelor de context ruleaza dupa pasul sumei de control, nu inainte. Un numar care trece suma de control primeste un scor maxim indiferent de textul inconjurator. In foi de calcul financiare, seturi de date stiintifice sau fisiere log, aceasta inunda iesirea cu alerte gresite. Filtrarea pragului de scor nu o poate remedia. Scorurile sunt deja la maximum.

Al doilea tipar apare in problema Presidio #999. Segmentarea cuvintelor germane esueaza pentru substantivele compuse. Cuvinte precum Bundesbehorde pot fi impartite incorect si etichetate ca nume personale. Aceasta adauga zgomot in orice document in limba germana.

Problema de 22,7% Precizie

Alvaro et al. (2024) au testat Presidio pe seturi de date enterprise multilingve. Au gasit 22,7% precizie. In documente reale, mai putin de una din patru alerte Presidio este o entitate PII reala. Aceasta corespunde cu ceea ce raporteaza practicienii. Un instrument ajustat doar pentru recuperare produce prea mult zgomot pentru utilizare in productie.

Un studiu DICOM din 2024 a aratat ca ridicarea score_threshold la 0,7 lasa in continuare alerte gresite in 38 din 39 imagini medicale. Un prag care elimina zgomotul intr-un tip de document creeaza ratari in altul.

Aceasta nu este o problema specifica Presidio. Orice prag fix forteaza un compromis. Un prag ridicat reduce zgomotul, dar creste ratarile. Un prag scazut creste recuperarea, dar umfla numarul de alerte.

Scorare Constienta de Context

Solutia este scorarea contextual-constienta a increderii. In loc sa scoreze pe baza potrivirii tipare singure, sistemul creste increderea cand cuvintele de context apar in apropierea potrivirii. De asemenea, scade scorul cand contextul lipseste.

Pentru detectia TFN: cuvinte precum tax file number, TFN sau Australian tax langa un numar ii maresc scorul. Un numar care trece suma de control, dar nu are cuvinte de context in apropierea sa, obtine un scor sub pragul de revizuire. Alerta falsa este suprimata.

Pentru zgomotul cross-lingvistic: tipurile de entitate legate de tari specifice pot fi limitate la documente in limba corespunzatoare. Un detector TFN limitat la textul in engleza si engleza australiana elimina zgomotul. Rularea lui pe continut german fara limitare este sursa problemei.

Al treilea strat dintr-un sistem hibrid este un model transformer. Citeste intreaga fereastra de context din jurul fiecarui candidat. Distinge intre un identificator de pacient si un cod de produs care se potriveste unui tipar de nume. Contextul rezolva ambiguitatea pe care regex si sumele de control nu o pot.

Vedeti cum motorul de detectie cu trei niveluri gestioneaza precizia la scara. Ghidul de detectie PII multilingv acopera modul in care zgomotul cross-lingvistic afecteaza conformitatea GDPR.

Pasi Practici

Inainte de a implementa orice instrument PII, masurati-i precizia, nu doar recuperarea.

Rulati instrumentul pe un set de documente cu PII cunoscut si non-PII cunoscut. Numarati alertele in ambele grupuri. Calculati raportul true positives impartit la suma true positives plus false positives. Acest numar reveleaza povara de revizuire inainte de a va angaja la o implementare.

Pentru echipele care folosesc deja Presidio, analiza distributiei scorurilor este o cale rapida. Exportati un esantion de detectii cu scorurile lor de incredere. Numarati cate sunt sub 0,6, 0,7 si 0,8. O proportie mare de alerte cu scor ridicat in text curat semnaleaza o lacuna de context, nu o problema de prag. Prezentarea conformitatii de securitate explica cum sa documentati aceasta intr-o DPIA.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.