By · Last updated 2026-06-05

Vissza a BlograTechnikai

A Presidio 22,7%-os precizitási problémája

Egy 2024-es benchmark szerint a Presidio személynév-felismerője üzleti dokumentumokon 22,7%-os precizitást ér el — vagyis a felismerések 77,3%-a téves pozitív.

June 5, 20267 perc olvasás
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

A Presidio 22,7%-os precizitási problémája

A személyes adat felismerésben előforduló téves pozitívok valódi kárt okoznak. Ha az eszközöd által „személynévként” jelölt elemek 77,3%-a nem valódi név, nem az adatvédelmet szolgálod. Az adatokat teszed tönkre.

Egy 2024-es benchmark a Microsoft Presidio alapértelmezett NER-modelljét tesztelte üzleti dokumentumokon. A teszt pénzügyi jelentéseket, ügyfélleveket, termékdokumentumokat és ügyfélszolgálati jegyeket ölelt fel. Eredmény: 22,7%-os precizitás névfelismerés terén.

Ez a szám megdöbbentő. 100 jelölt elemből 23 valódi személynév. A többi 77 téves pozitív — termékjelzések, márkanevűek vagy városnevűek.

Négyből három felismerés téves. Ez nem kisebb kalibrálási probléma. Ez egy törött eszköz üzleti dokumentumok feldolgozásához.

Miért történik ez?

A Presidio alapértelmezés szerint a spaCy en_core_web_lg modelljét használja. Ez a modell hírtexteken tanult. A hírekben a legtöbb tulajdonnév valódi személyre vagy helyre utal.

Az üzleti dokumentumok mások.

Termékcímkék, amelyek személyneveknek tűnnek. Az „Apple iPhone 15 Pro szállítmányi rekordok” PERSON-ként kerül jelölésre. Ugyanígy a „Samsung Galaxy Tab” és a „Cisco Meraki telepítés” is.

Névszerű részeket tartalmazó céges kifejezések. A „Johnson Controls eredmények” szövegben a „Johnson” szó PERSON-ként kerül jelölésre. A „Goldman Sachs portfólió” ugyanezt a hibát váltja ki.

Helyszíncímkék, amelyek személyfelismerést aktiválnak. A „Victoria Harbour projekt” szövegben a „Victoria” PERSON-ként kerül jelölésre. A „Santiago hub” esetén a „Santiago” ugyanígy.

A modellnek nincs kontextusa ahhoz, hogy megkülönböztesse az „Apple” céget az „Apple Smith” személytől. Ez a hiányosság okozza a legtöbb téves pozitívot. A hírtextek arra tanították, hogy a tulajdonneveket személyekként vagy helyekként kezelje. Az üzleti szöveg ezt a szabályt folyamatosan megsérti.

A következmény

Egy adatcég a Presidio-t arra használta, hogy ügyfél-kérdőíveket tisztítson meg megosztás előtt. Egy audit négy problémát tárt fel. Először: a kérdőívek 40%-ában termékcímkéket tévesen eltávolítottak. Másodszor: városneveket töröltek minden válaszból. Harmadszor: márkaneveket töröltek az elemzési készletből. Negyedszer: az egyes termékekre vonatkozó hangulati adatok nem olvashatók.

Az elemzőcsapat redakált szöveget kapott, amelyből minden termékhivatkozás hiányzott. Az eredeti kérdőív az iPhone Pro-t és az Apple töltőt nevesítette. Ez a tartalom eltűnt.

A cég nem védte jobban az adatvédelmet. Tönkretette az adatokat anélkül, hogy megfelelőségi előnyt szerzett volna. A Presidio-t az audit után lecserélték.

Lásd a megfelelőségi áttekintőnket, ahol részletezzük, hogyan hat a felismerési minőség a szabályozási státuszra.

Jobb megközelítés: hibrid felismerés

A probléma nem egyedi a Presidio-nál. A kontextus nélküli token-szintű NER esetén mindig fennáll ez a probléma. A megoldás a kontextustudatos felismerés.

Miért segítenek a transformer modellek: Egy XLM-RoBERTa-hoz hasonló modell az egész mondatot olvassa. „Az Apple bejelentette eredményeit” → Az Apple cég. „Apple Smith csatlakozott a csapathoz” → Az Apple keresztnév. A kontextus megmondja, melyik melyik.

Ez javítja a precizitást, miközben fenntartja a visszahívást. Lásd az alábbi összehasonlítást.

MegközelítésPrecizitásVisszahívás
Presidio alapértelmezett NER22,7%~85%
Csak regex~95%~40%
Hibrid (Regex + NLP + Transformer)~85%~80%

A hibrid megközelítés 85%-os precizitást ér el. Ez 15%-os téves pozitív arányt jelent. Sokkal jobb, mint a 77,3%. Üzleti dokumentumoknál ez a különbség számít.

A hibrid megközelítés négy lépésből áll:

  1. Regex-réteg: Strukturált azonosítókat keres — e-mail-címeket, telefonszámokat, SSN-eket, IBAN-okat. A formátumok rögzítettek, így a téves pozitívok ritkák. Ez fut először.

  2. NLP-réteg (spaCy): Szokványos NER személyekre, cégekre és helyekre. Magas visszahívás, alacsonyabb precizitás.

  3. Transformer-réteg (XLM-RoBERTa): Minden NLP-eredményt újra pontozza a teljes mondatkontextus alapján. Az „Apple” termékkontextusban elveszti az entitáspontszámát. A „János” panaszos szövegben megkapja azt.

  4. Megbízhatósági küszöb: Csak a megadott pontszám feletti találatok kerülnek a kimenetbe. Emeld a küszöböt analitikai felhasználási esetekre. Csökkentsd HIPAA-szerinti azonosítómentesítésnél.

Az eredmény átállás után

Az analitikai cég hibrid felismerésre váltott. A nyereségek egyértelműek voltak. A termékcímkék téves pozitívjai 40%-ról 3%-ra csökkentek. A városnevűek téves pozitívjai közel nullára estek. A valódi személyazonosság visszahívása ~82%-on maradt, kissé elmaradva a 85%-tól, de a precizitás jelentősen javult.

A kérdőívek ismét használhatókká váltak. Az „iPhone”, az „Apple”, a „Samsung” és a „Chicago” megmaradt a szövegben. A panaszos szövegkörnyezetben szereplő ügyfélneveket helyesen eltávolították.

A hibrid felismerés több számítási kapacitást igényel. Nagy feladatoknál a futási idők valamivel hosszabbak. A legtöbb üzleti felhasználási esetben a pontossági nyereség megéri. A cég ismét elvégezhette az elemzést. Ez volt a kérdőíves adatok egész lényege.

Lásd a felismerési megközelítésünkről szóló leírást a biztonsági áttekintőben.

Mikor elfogadható a magas téves pozitív arány?

Bizonyos esetekben a visszahívás fontosabb a precizitásnál.

HIPAA Safe Harbor: Egy valódi pozitív kihagyása jogsértés. 10%-os téves pozitív arány elfogadható, ha a valódi PHI sohasem marad ki. A túlzott eltávolítás biztonságosabb a nem elégséges eltávolításnál.

Jogi felülvizsgálat: Egy privilegizált kapcsolat kihagyása feladhatja a kiváltságot. A téves pozitívok felülvizsgálatra szorulnak, de nem keletkeztetnek felelősséget.

Üzleti analitika: A túlzott eltávolítás tönkreteszi az adatokat megfelelőségi nyereség nélkül. A precizitás itt fontosabb. Használj hibrid megközelítést magas megbízhatósági küszöbbel. Ez a márkajelzéseket és városneveket megőrzi a kimenetben. Csak a tényleges személyneveket távolítja el.

A megfelelő egyensúly a felhasználási esettől függ. A küszöb beállítását lehetővé tevő eszközök kontrollt adnak. Egyetlen alapértelmezés sem működik minden kontextusban.

Lásd a GYIK-et a küszöbértékekkel és felismerési módokkal kapcsolatos gyakori kérdésekért.

Összefoglalás

A 22,7%-os precizitási arány azt jelenti, hogy négyből 3 felismerés téves. Üzleti dokumentumoknál ez a kimenet elemzésre alkalmatlanná válik. Hamis megfelelőségi biztonságérzetet is ad.

A hibrid felismerés megoldja ezt. Kombinálja a regexet, az NLP-t és a transformer pontozást. Az adatok anonymizálás után is hasznosak maradnak. A valódi személyneveket eltávolítják. A márkajelzések, városnevek és termékidentifikátorok megmaradnak.

Ha a téves pozitívok miatt hagytad el a Presidio-t, ez a továbblépés útja. Nem ugyanazon modell új konfigurációja. Egy másik architektúra, amelyet üzleti dokumentumkontextusokra terveztek.

Források

Priva PII Benchmark 2024: Presidio Precizitás-értékelés. VERIFIED-EXTERNAL.

Microsoft Presidio: Támogatott entitások és modellarchitektúra. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg tanítóadatok és korlátok. VERIFIED-EXTERNAL.

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.