By · Last updated 2026-06-05

Itzuli BlogeraTeknikoa

Presidioren %22,7ko zehaztasun-arazoa

2024ko benchmark batek aurkitu du Presidioren pertsona-izen ezagutzaileak %22,7ko zehaztasuna lortzen duela negozio-dokumentuetan, hau da, detekzioen %77,3 faltsu-positiboak dira.

June 5, 20267 min irakurri
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidioren %22,7ko zehaztasun-arazoa

PII detekzioan faltsu-positiboek kalte errealak sortzen dituzte. Zure tresnak "pertsona-izen" gisa markatzen duenaren %77,3 benetako izenak ez direnean, ez zara pribazitatea babesten. Datuak hondatzen ari zara.

2024ko benchmark batek Microsoft Presidioren NER eredu lehenetsiko proba egin zuen negozio-dokumentuetan. Probak finantza-txostenak, bezero-gutunak, produktu-dokumentuak eta laguntza-txartelak hartu zituen kontuan. Emaitza: %22,7ko zehaztasuna izen-detekziorako.

Zenbaki hori deigarria da. Markatutako 100 elementu bakoitzeko, 23 benetako pertsona-izenak dira. Beste 77ak faltsu-positiboak dira - produktu-etiketak, marka-terminoak edo hiri-etiketak.

Lau detekziotik hiru okerrak dira. Hori ez da doikuntza-arazo txiki bat. Negozio-dokumentuetarako tresna hondatua da.

Zergatik Gertatzen Den Hau

Presidiok spaCyren en_core_web_lg eredua erabiltzen du lehenetsita. Eredu honek albiste-testuetan ikasi zuen. Albistetan, izen-berezien gehiengoa benetako pertsonak edo tokiak dira.

Negozio-dokumentuak ezberdinak dira.

Pertsona-izen itxurako produktu-etiketak. "Apple iPhone 15 Pro bidalketaren erregistroak" PERTSONA gisa markatzen da. "Samsung Galaxy Tab" ere bai eta "Cisco Meraki hedapena" ere bai.

Izen-antzerako zatiak dituzten enpresa-terminoak. "Johnson Controls emaitzetan", "Johnson" hitza PERTSONA gisa markatzen da. "Goldman Sachs zorrotegiak" errore bera eragiten du.

Pertsona-detekzioa eragiten duten kokapen-etiketak. "Victoria Harbour proiektua" "Victoria" PERTSONA gisa markatzen du. "Santiago hub" berdin markatzen du "Santiago".

Ereduak ez du testuingururik "Apple" (enpresa) eta "Apple Smith" (pertsona) bereizteko. Hutsune hori da faltsu-positibo gehienen erroa. Albiste-testuak izen-bereziak pertsona edo toki gisa tratatzea irakatsi dio. Negozio-testuak arau hori askotan hausten du.

Ondoriozko Eragina

Datu-enpresa batek Presidio erabili zuen bezero-inkestak garbitzeko partekatu aurretik. Auditoretzak lau arazo aurkitu zituen. Lehenenik, inkesten %40k produktu-etiketak oker kendurik zituen. Bigarrenik, hiri-etiketak erantzun guztietatik kendu ziren. Hirugarrenik, marka-aipamenak analisi-multzotik ezabatu ziren. Laugarrenik, produktu zehatzen inguruko sentimendua ezin zen irakurri.

Analisi-taldeak erreferentzia produktu guztiak kendurik zituen testua jaso zuen. Inkestak hasiera batean iPhone Pro eta Apple kargagailua aipatzen zituen. Esanahi hori joan zen.

Enpresa ez zen pribazitatea hobeto babesten ari. Datuak apurtzen ari zen betetzerik lortu gabe. Auditoretzaren ondoren Presidio ordezkatu zen.

Ikusi gure betetze-ikuspegi orokorra detekzio-kalitateak zure arauzko egoeran nola eragiten duen jakiteko.

Ikuspegia Hobea: Detekzio Hibridoa

Arazoa ez da Presidioari soilik dagokion. Testuingururik gabeko token-mailako NER-k beti izango du arazo hau. Konponketa testuinguru-jakitun detekzioa da.

Zergatik laguntzen duten transformadoreak: XLM-RoBERTa bezalako eredu batek esaldi osoa irakurtzen du. "Apple bere irabaziak iragarri zituen" - Apple enpresa bat da. "Apple Smith taldean sartu zen" - Apple izen bat da. Testuinguruak erakusten du zein den.

Horrek zehaztasuna hobetzen du gogora-ekarraldiak gora mantentzen diren bitartean. Ikusi beheko konparaketa.

IkuspegiaZehaztasunaGogora-ekarraldia
Presidio NER lehenetsita%22,7~%85
Regex soilik~%95~%40
Hibridoa (Regex + NLP + Transformadorea)~%85~%80

Ikuspegi hibridoak %85eko zehaztasuna lortzen du. Horrek %15eko faltsu-positibo-tasa esan nahi du. %77,3 baino askoz hobea. Negozio-dokumentuetarako, hutsune honek garrantzia du.

Pilak lau urrats ditu:

  1. Regex geruza: ID egituratuak aurkitzen ditu - posta elektronikoak, telefono-zenbakiak, SSNak, IBANak. Formatuak finkoak dira, beraz faltsu-positiboak arraroak dira. Hau lehenengo exekutatzen da.

  2. NLP geruza (spaCy): Pertsona, enpresa eta tokietarako NER estandarra. Gogora-ekarraldia handia, zehaztasun txikiagoa.

  3. Transformadore geruza (XLM-RoBERTa): NLP emaitza bakoitza esaldi-testuinguru osoa erabiliz berriro puntuatzen du. "Apple" produktu-testuinguruan entitate-puntuazioa galtzen du. "John" kexu-testuan irabaztzen du.

  4. Konfiantza-atalasea: Ezarritako puntuazio gainetik dauden emaitzak soilik igarotzen dira irteerara. Atalasea igotzen da analitika-erabilera-kasurako. Jaisten da HIPAA de-identifikaziorako.

Aldatu Ondorengo Emaitzak

Analitika-enpresak detekzio hibridora aldatu zen. Irabaziak argiak ziren. Produktu-etiketen faltsu-positiboak %40tik %3ra jaitsi ziren. Hiri-etiketen faltsu-positiboak ia zerora jaitsi ziren. Benetako identitateen gogora-ekarraldia ~%82an geratu zen, %85etik pixka bat jaitsita, baina zehaztasuna asko hobetu zen.

Inkestak berriro erabilgarri bihurtu ziren. "iPhone", "Apple", "Samsung" eta "Chicago" testuan geratu ziren. Kexu-testuinguruetan bezero-izenak behar bezala kendu ziren.

Detekzio hibridoak konputatze gehiago eskatzen du. Lan handietarako, exekuzio-denborak pixka bat luzeagoak dira. Negozio-erabilera-kasu gehienetarako, zehaztasun-irabazia merezi du. Enpresak berriro analisia egin ahal zuen. Hori zen inkesta-datuen helburu osoa.

Irakurri gure detekzio-ikuspegiaren inguruan segurtasun-ikuspegi orokorrean.

Noiz Diren Onargarriak Faltsu-positibo Tasa Altuak

Zenbait kasutan gogora-ekarraldia zehaztasunaren gainetik dago.

HIPAA Babes Seguruaren Portua: Benetako positibo bat galtzea urraketa da. %10eko faltsu-positibo-tasa ongi dago benetako PHI inoiz ez bada galtzen. Gehiegi kentzea kentzegitik baino seguruagoa da.

Berrikusketa juridikoa: Pribilegiatutako kontaktu bat galtzeak pribilegioari uko egitea ekar dezake. Faltsu-positiboek berrikusketa behar dute baina ez dute erantzukizunik sortzen.

Negozio-analitika: Gehiegi kentzeak datuak haustzen ditu betetze-irabazi gabe. Zehaztasuna garrantzitsuagoa da hemen. Konfiantza-atalase altuarekin ikuspegi hibridoa erabili. Horrek marka-etiketak eta hiri-terminoak irteeran gordetzen ditu. Benetako pertsona-izenak soilik kentzen dira.

Oreka egokia zure erabilera-kasuaren araberakoa da. Atalasea ezartzeko aukera ematen dizuten tresnek kontrola ematen dizute. Testuinguru guztietarako ez dago lehenetsi bakar bat.

Ikusi gure FAQ ataleen eta detekzio-moduen inguruko ohiko galderetarako.

Ondorioa

%22,7ko zehaztasun-tasak esan nahi du 4 detekziotik 3 okerrak direla. Negozio-dokumentuetarako, horrek irteera analisia erabilgaitz egiten du. Gainera, betetzeri buruzko ustezko konfiantza ematen du.

Detekzio hibridoak hau konpontzen du. Regex, NLP eta transformadore-puntuazioa konbinatzen ditu. Datuak anonimizazioaren ondoren erabilgarri gelditzen dira. Benetako pertsona-izenak kentzen dira. Marka-etiketak, hiri-terminoak eta produktu-identifikatzaileak geratzen dira.

Presidio faltsu-positibo arazoek utzi bazaituzte, hau da aurrera egiteko bidea. Ez eredu berdinaren konfigurazio berri bat. Negozio-dokumentuen testuingururako eraikitako arkitektura ezberdina.

Iturriak

Priva PII Benchmark 2024: Presidio Precision Evaluation. EGIAZTATU-KANPOKO.

Microsoft Presidio: Onartutako entitateak eta eredu-arkitektura. EGIAZTATU-KANPOKO.

spaCy: en_core_web_lg prestakuntza-datuak eta mugak. EGIAZTATU-KANPOKO.

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.