Presidios presisjonsproblem på 22,7 %

Falske positiver i PII-deteksjon forårsaker reell skade. Når 77,3 % av det verktoyets flagges som "personnavn" ikke er ekte navn, beskytter du ikke personvernet. Du odelegger data.

En benchmark fra 2024 testet Microsoft Presidios standard NER-modell på forretningsdokumenter. Testen dekket finansrapporter, kundebrev, produktdokumenter og supporthenvendelser. Resultatet: 22,7 % presisjon for navnedeteksjon.

Det tallet er slående. For hver 100 elementer som flagges, er 23 ekte individuelle navn. De andre 77 er falske positiver — produktetiketter, merkenavn eller stedsnavn.

Tre av fire deteksjoner er feil. Det er ikke et mindre kalibreringsproblem. Det er et odelagt verktoy for arbeid med forretningsdokumenter.

Hvorfor dette skjer

Presidio bruker spaCys en_core_web_lg-modell som standard. Denne modellen ble traent på nyhetsartikler. I nyheter er de fleste egennavn ekte personer eller steder.

Forretningsdokumenter er annerledes.

Produktetiketter som ligner personnavn. "Apple iPhone 15 Pro-leveringsregistre" flagges som PERSON. Det gjor "Samsung Galaxy Tab" og "Cisco Meraki-distribusjon" også.

Selskapsbetegnelser med navnelignende deler. I "Johnson Controls-resultater" flagges ordet "Johnson" som PERSON. "Goldman Sachs-portefolje" utloser samme feil.

Stedsetiketter som utloser persondeteksjon. "Victoria Harbour-prosjektet" flaggerer "Victoria" som PERSON. "Santiago-hub" flaggerer "Santiago" på samme måte.

Modellen mangler kontekst til å skille "Apple" (selskap) fra "Apple Smith" (en person). Denne mangelen er roten til de fleste falske positiver. Nyhetsartikler laerte den å behandle egennavn som personer eller steder. Forretningsartikler bryter den regelen hele tiden.

Nedstroms konsekvenser

Et datafirma brukte Presidio til å rense kundeundersokelser for deling. En revisjon avslote fire problemer. For det forste hadde 40 % av undersokelsene produktetiketter som feilaktig var fjernet. For det andre ble stedsetiketter stripper fra hvert svar. For det tredje ble merkenner vasket ut fra analysesettet. For det fjerde kunne man ikke lese sentiment om spesifikke produkter.

Analyseteamet fikk redigert tekst der alle produktreferanser var fjernet. Undersokelsen hadde opprinnelig nevnt iPhone Pro og Apple-laderen. Den meningen var borte.

Firmaet beskyttet ikke personvernet bedre. Det odela data uten å oppnå compliance. Presidio ble erstattet etter revisjonen.

Se vår compliance-oversikt for hvordan deteksjonskvalitet påvirker din regulatoriske stilling.

En bedre tilnaerming: Hybrid deteksjon

Problemet er ikke unikt for Presidio. Token-nivå NER uten kontekst vil alltid ha dette problemet. Losningen er kontekstbevisst deteksjon.

Hvorfor transformere hjelper: En modell som XLM-RoBERTa leser hele setningen. "Apple kunngjorde sine resultater" → Apple er et selskap. "Apple Smith ble med i teamet" → Apple er et fornavn. Konteksten forteller deg hvilken det er.

Dette forbedrer presisjonen mens man holder recall hoy. Se sammenligningen nedenfor.

Tilnaerming	Presisjon	Recall
Presidio standard NER	22,7 %	~85 %
Kun regex	~95 %	~40 %
Hybrid (Regex + NLP + Transformer)	~85 %	~80 %

Hybridtilnaermingen oppnår 85 % presisjon. Det betyr en 15 % falsk positiv-rate. Langt bedre enn 77,3 %. For forretningsdokumenter betyr dette gapet mye.

Hybridstakken har fire trinn:

Regex-lag: Finner strukturerte ID-er — e-postadresser, telefonnumre, SSN-er, IBAN-er. Formater er faste, så falske positiver er sjeldne. Dette kjorer forst.
NLP-lag (spaCy): Standard NER for personer, selskaper og steder. Hoy recall, lavere presisjon.
Transformer-lag (XLM-RoBERTa): Revurderer hvert NLP-resultat ved hjelp av full setningskontekst. "Apple" i en produktkontekst mister enhetsscoren sin. "John" i en klagetekst far den.
Konfidensstokkel: Bare treff over et angitt score-nivå passerer til output. Hev stokkelen for analytiske brukstilfeller. Senk den for HIPAA-avidentifisering.

Resultater etter bytte

Analysefirmaet byttet til hybrid deteksjon. Gevinsten var tydelig. Falske positiver for produktetiketter falt fra 40 % til 3 %. Falske positiver for stedsetiketter falt til naer null. Reell identitetsrecall ble liggende på ~82 %, litt ned fra 85 %, men presisjonen forbedret seg mye.

Undersokelsene ble brukbare igjen. "iPhone", "Apple", "Samsung" og "Chicago" ble vaerende i teksten. Kundernavn i klagekontekst ble korrekt fjernet.

Hybrid deteksjon krever mer beregningskraft. For store jobber er kjoretidene litt lenger. For de fleste forretningsbrukstilfeller er noyaktighetsgevinsten verdt det. Firmaet kunne kjore analyser igjen. Det var hele poenget med undersokelsesdataene.

Les om vår deteksjonstilnaerming i sikkerhetsoversikten.

Når hoy falsk positiv-rate er akseptabel

Noen tilfeller foretrekker recall fremfor presisjon.

HIPAA Safe Harbor: Å miste en ekte positiv er et brudd. En 10 % falsk positiv-rate er akseptabel hvis ekte PHI aldri er savnet. Over-fjerning er tryggere enn under-fjerning.

Juridisk gjennomgang: Å miste en privilegert kontakt kan frafalle privilegiet. Falske positiver trenger gjennomgang, men skaper ikke ansvar.

Forretningsanalyse: Over-fjerning odelegger data uten en compliance-gevinst. Presisjon betyr mer her. Bruk en hybridtilnaerming med hoy konfidensstokkel. Dette beholder merkenavn og stedsbetegnelser i output. Bare faktiske personnavn fjernes.

Riktig balanse avhenger av brukstilfelle. Verktoy som lar deg sette stokkelen gir deg kontroll. Ingen enkelt standard fungerer for alle kontekster.

Se vår FAQ for vanlige sporsmal om stokkler og deteksjonsmodi.

Konklusjon

En presisjon på 22,7 % betyr at 3 av 4 deteksjoner er feil. For forretningsdokumenter gjor det output ubrukelig for analyse. Det gir også falsk trygghet om compliance.

Hybrid deteksjon fikser dette. Den kombinerer regex, NLP og transformer-scoring. Data forblir nyttige etter anonymisering. Ekte personnavn fjernes. Merkenavn, stedsbetegnelser og produktidentifikatorer forblir.

Hvis du forlot Presidio på grunn av falsk positiv-problemer, er dette veien videre. Ikke en ny konfigurasjon av samme modell. En annen arkitektur bygget for forretningsdokumentkontekster.

Kilder

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

Relaterte Artikler

Teknisk

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

Start Gratis Prøveperiode Se Funksjoner

Presidios presisjonsproblem på 22,7 %