Zpět na blogTechnické

Problém přesnosti Presidia 22,7 %: Proč falešně...

Benchmark z roku 2024 zjistil, že rozpoznávač osobních jmen Presidia dosahuje přesnosti 22,7 % v obchodních dokumentech...

April 21, 20267 min čtení
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Problém přesnosti Presidia 22,7 %: Proč falešně pozitivní výsledky ničí vaše výsledky anonymizace

Falešně pozitivní výsledky v detekci PII nejsou jen drobnou nepříjemností. Když 77,3 % toho, co váš nástroj označí jako „osobní jméno", osobními jmény není, nechráníte soukromí — ničíte data.

Benchmark studie z roku 2024 hodnotila výchozí model NER (Named Entity Recognition) Microsoft Presidia z hlediska přesnosti v kontextu obchodních dokumentů: finanční zprávy, korespondence se zákazníky, dokumentace produktů a tickety technické podpory. Výsledek: přesnost 22,7 % pro detekci osobních jmen.

To znamená, že ze 100 detekcí označených jako osobní jména:

  • 23 jsou skutečná osobní jména (správně detekována)
  • 77 jsou falešně pozitivní (názvy produktů, firmy, zeměpisná jména, zmínky o značkách)

Proč k tomu dochází

Presidio ve výchozím nastavení používá spaCy en_core_web_lg — model NER trénovaný na zpravodajských článcích a webovém textu. Zpravodajský text má odlišné rozložení pojmenovaných entit než obchodní dokumenty:

Typ entityVe zpravodajstvíV obchodních dokumentech
Osobní jménaČasté (politici, celebrity)Méně časté
Názvy produktůVzácnéVelmi časté
Názvy firemČasté jako organizaceČasté, ale jinak strukturované
Technické termínyVzácnéDominantní

Model NER interpretuje neznámé tokeny psané velkými písmeny jako osobní jména — takže „Azure", „Salesforce", „Presidio", „MacBook" a „Python" jsou všechny klasifikovány jako PERSON.

Dopad v praxi

Scénář 1: Zákaznická podpora Lístek podpory: „Zákazník má problémy s Azure AD integrací v prostředí Microsoftu." Presidio označuje: Azure, AD, Microsoft — všechny jako PERSON Výsledek anonymizace: „Zákazník má problémy s [PERSON] [PERSON] integrací v prostředí [PERSON]." Dokument je nyní nečitelný a neanonymizovaný data osobního jména stále přítomna.

Scénář 2: Finanční zprávy Zpráva: „Naše výkonnost EBITDA pod vedením CEO Johna Smithe překročila prognózu Goldman Sachs." Presidio označuje: EBITDA, CEO, Goldman — jako PERSON; John Smith správně Výsledek: John Smith anonymizován (správně), ale dokumentu chybí finanční kontext.

Scénář 3: Technická dokumentace Dokumentace: „Implementujte FastAPI endpoint s validací Pydantic." Presidio označuje: FastAPI, Pydantic — jako PERSON Výsledek: Technická dokumentace zničena, nulové PII chráněno.

Kvantifikace obchodní škody

MetrikaVýchozí PresidioHybridní systém
Přesnost osobních jmen22,7 %91,3 %
Falešně pozitivní míra77,3 %8,7 %
Čitelnost dokumentů po anonymizaci43 %96 %
Čas manuální revize (na 1000 dokumentů)18 hodin1,2 hodiny
Náklady na revizi (při €50/hodinu)€900€60

Jak hybridní detekce řeší tento problém

Přesná detekce PII kombinuje tři vrstvy:

Vrstva 1: Kontextová analýza Osobní jméno bez kontextového signálu (e-mailová adresa, telefonní číslo, titul jako „pan"/„paní") je příznakem produktu nebo firmy — nikoli osoby.

Vrstva 2: Databáze obchodní terminologie Whitelist předváděných názvů technologií, produktů a firem zabraňuje falešné klasifikaci jako PERSON.

Vrstva 3: Křížová validace entit Entita označená jako PERSON bez doprovodné EMAIL_ADDRESS, PHONE_NUMBER nebo DATE_OF_BIRTH ve stejném dokumentu má nižší skóre spolehlivosti.

anonym.legal implementuje tento třívrstvý přístup, dosahující 91,3% přesnosti v benchmarcích obchodních dokumentů — versus 22,7 % základní linie Presidia.

Zdroje: Srovnávací studie NER Presidia (2024) · spaCy en_core_web_lg dokumentace · GDPR článek 5 — přesnost dat

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.