anonym.legal

By · Last updated 2026-04-03

Terug na BlogTegnies

Die Vals Positiewe Belasting op PII-gereedskap

Presidio GitHub-kwessie #1071 dokumenteer stelselmatige vals positiewes. 'n 2024-studie het 22.7% presisie in gemengde-taal ondernemingsdatastelle gevind.

April 3, 20268 min lees
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Die Vals Positiewe Belasting op PII-Opsporingsgereedskap

Bygewerk vir 2026

Die meeste PII-gereedskap word aan herroep beoordeel. Herroep meet watter deel van werklike PII die gereedskap vind. Maar presisie is net so belangrik. Presisie meet watter deel van die gereedskap se waarskuwings werklike PII is.

Lae presisie is duur. 'n Stelsel met 95% herroep en 22.7% presisie vang die meeste PII. Tog vir elke werklike PII-entiteit wat dit merk, gee dit ook 3.4 verkeerde waarskuwings. In 'n datastel met 10,000 werklike PII-entiteite gee hierdie stelsel ongeveer 44,000 waarskuwings. Omtrent 34,000 van hulle is verkeerd. Elkeen kos tyd om te hersien of veroorsaak oor-redigering.

Dit is die vals positiewe belasting. Dit is die oorhoofse koste wat enige span betaal wanneer hulle 'n hoe-herroep, lae-presisie PII-stelsel op groot skaal gebruik. Die direkte koste is hersienertyd. Die indirekte koste is erger: oor-geredigeerde dokumente verberg nuttige data, vertraag werk, en ondermyn vertroue in die gereedskap.

Wat Presidio Kwessie #1071 Wys

Microsoft Presidio GitHub-bespreking #1071 (2024) teken 'n spesifieke patroon aan. Die TFN (Belasting-leer-nommer) en PCI-herkenners gebruik kontrolesom-validering. Nommers wat die kontrolesom slaag ontvang 'n telling van 1.0 -- maksimum vertroue. Geen PII-konteks word vereis nie.

Die grondoorsaak: kontekswoord-kontrole loop na die kontrolesom-stap, nie voor nie. 'n Nommer wat die kontrolesom slaag kry 'n toptelling ongeag omringende teks. In finansiele sigblaaie, wetenskaplike datastelle, of logLeers, oorstroom dit die uitvoer met verkeerde waarskuwings. Tellingsdrempel-filtrering kan dit nie regmaak nie. Die tellings is reeds op maksimum.

'n Tweede patroon verskyn in Presidio-kwessie #999. Duitse woordsegmentering breek vir samegestelde naamwoorde. Woorde soos Bundesbehorde (federale gesag) kan verkeerd gesplit word en as persoonlike name gemerk word. Dit voeg geraas by in enige Duitstalige dokument.

Die 22.7% Presisieprobleem

Alvaro et al. (2024) het Presidio op gemengde-taal ondernemingsdatastelle getoets. Hulle het 22.7% presisie gevind. In werklike dokumente is minder as een uit vier Presidio-waarskuwings 'n werklike PII-entiteit. Dit stem ooreen met wat praktisyns rapporteer. 'n Gereedskap wat vir herroep alleen gestem is, produseer te veel geraas vir produksiegebruik.

'n 2024 DICOM-studie het gewys dat die verheffing van score_threshold na 0.7 steeds verkeerde waarskuwings in 38 van 39 mediese beelde gelaat het. 'n Drempel wat geraas in een dokumenttipe verwyder skep gemiste opsporing in 'n ander.

Dit is nie net 'n Presidio-probleem nie. Enige vaste drempel dwing 'n kompromis. 'n Hoe drempel sny geraas maar verhoog missies. 'n Lae drempel verhoog herroep maar blaas die waarskuwingstelling op.

Konteks-bewuste Telling

Die oplossing is konteks-bewuste vertroue-telling. In plaas van telling wat slegs op die patroonpassing gebaseer is, verhoog die stelsel vertroue wanneer kontekswoorde naby die passing verskyn. Dit verlaag ook die telling wanneer konteks afwesig is.

Vir TFN-opsporing: woorde soos "belasting-leer-nommer," "TFN," of "Australiese belasting" naby 'n nommer verhoog sy telling. 'n Nommer wat die kontrolesom slaag maar geen nabygeleë kontekswoorde het nie, tellings onderkant die hersiendrempel. Die vals waarskuwing word onderdruk.

Vir kruistalige geraas: entiteitstipes wat aan spesifieke lande gekoppel is, kan tot dokumente in die ooreenstemmende taal beperk word. 'n TFN-herkenner wat tot Engels en Australies-Engelse teks beperk is, verwyder geraas. Dit op Duitse inhoud sonder beperking te gebruik is die bron van die probleem.

Die derde laag in 'n hibridiese stelsel is 'n transformatormodel. Dit lees die volledige konteksvenster rondom elke kandidaat. Dit onderskei "Jan Smit, Pasient-ID 12345" van 'n produkskode wat 'n naampatroon pas. Konteks los die dubbelsinnigheid op wat regex en kontrolesomme nie kan nie.

Sien hoe die drielaag-opsporingenjin presisie op groot skaal hanteer. Die veeltalige PII-opsporinggids dek hoe kruistalige geraas GDPR-nakoming beinvloed.

Praktiese Stappe

Voor die ontplooiing van enige PII-gereedskap, meet sy presisie -- nie net herroep nie.

Laat die gereedskap op 'n dokumentstel met bekende PII en bekende nie-PII loop. Tel waarskuwings in beide groepe. Bereken true_positives / (true_positives + false_positives). Hierdie getal onthul die hersienlas voor jy tot 'n uitrol verbind.

Vir spanne wat reeds Presidio gebruik, is tellingverspreiding-analise 'n vinnige pad. Voer 'n steekproef van opsporing met hul vertroue-tellings uit. Tel hoeveel onder 0.6, 0.7, en 0.8 tellings het. 'n Groot deel van hoe-telling waarskuwings in skoon teks dui op 'n konteksgaping, nie 'n drempelprobleem nie. Die sekuriteitsnakomingsoorsig verduidelik hoe om dit in 'n DPIA te dokumenteer.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.