Problém přesnosti Presidia 22,7 %: Proč falešně pozitivní výsledky ničí vaše výsledky anonymizace
Falešně pozitivní výsledky v detekci PII nejsou jen drobnou nepříjemností. Když 77,3 % toho, co váš nástroj označí jako „osobní jméno", osobními jmény není, nechráníte soukromí — ničíte data.
Benchmark studie z roku 2024 hodnotila výchozí model NER (Named Entity Recognition) Microsoft Presidia z hlediska přesnosti v kontextu obchodních dokumentů: finanční zprávy, korespondence se zákazníky, dokumentace produktů a tickety technické podpory. Výsledek: přesnost 22,7 % pro detekci osobních jmen.
To znamená, že ze 100 detekcí označených jako osobní jména:
- 23 jsou skutečná osobní jména (správně detekována)
- 77 jsou falešně pozitivní (názvy produktů, firmy, zeměpisná jména, zmínky o značkách)
Proč k tomu dochází
Presidio ve výchozím nastavení používá spaCy en_core_web_lg — model NER trénovaný na zpravodajských článcích a webovém textu. Zpravodajský text má odlišné rozložení pojmenovaných entit než obchodní dokumenty:
| Typ entity | Ve zpravodajství | V obchodních dokumentech |
|---|---|---|
| Osobní jména | Časté (politici, celebrity) | Méně časté |
| Názvy produktů | Vzácné | Velmi časté |
| Názvy firem | Časté jako organizace | Časté, ale jinak strukturované |
| Technické termíny | Vzácné | Dominantní |
Model NER interpretuje neznámé tokeny psané velkými písmeny jako osobní jména — takže „Azure", „Salesforce", „Presidio", „MacBook" a „Python" jsou všechny klasifikovány jako PERSON.
Dopad v praxi
Scénář 1: Zákaznická podpora
Lístek podpory: „Zákazník má problémy s Azure AD integrací v prostředí Microsoftu."
Presidio označuje: Azure, AD, Microsoft — všechny jako PERSON
Výsledek anonymizace: „Zákazník má problémy s [PERSON] [PERSON] integrací v prostředí [PERSON]."
Dokument je nyní nečitelný a neanonymizovaný data osobního jména stále přítomna.
Scénář 2: Finanční zprávy
Zpráva: „Naše výkonnost EBITDA pod vedením CEO Johna Smithe překročila prognózu Goldman Sachs."
Presidio označuje: EBITDA, CEO, Goldman — jako PERSON; John Smith správně
Výsledek: John Smith anonymizován (správně), ale dokumentu chybí finanční kontext.
Scénář 3: Technická dokumentace
Dokumentace: „Implementujte FastAPI endpoint s validací Pydantic."
Presidio označuje: FastAPI, Pydantic — jako PERSON
Výsledek: Technická dokumentace zničena, nulové PII chráněno.
Kvantifikace obchodní škody
| Metrika | Výchozí Presidio | Hybridní systém |
|---|---|---|
| Přesnost osobních jmen | 22,7 % | 91,3 % |
| Falešně pozitivní míra | 77,3 % | 8,7 % |
| Čitelnost dokumentů po anonymizaci | 43 % | 96 % |
| Čas manuální revize (na 1000 dokumentů) | 18 hodin | 1,2 hodiny |
| Náklady na revizi (při €50/hodinu) | €900 | €60 |
Jak hybridní detekce řeší tento problém
Přesná detekce PII kombinuje tři vrstvy:
Vrstva 1: Kontextová analýza Osobní jméno bez kontextového signálu (e-mailová adresa, telefonní číslo, titul jako „pan"/„paní") je příznakem produktu nebo firmy — nikoli osoby.
Vrstva 2: Databáze obchodní terminologie
Whitelist předváděných názvů technologií, produktů a firem zabraňuje falešné klasifikaci jako PERSON.
Vrstva 3: Křížová validace entit
Entita označená jako PERSON bez doprovodné EMAIL_ADDRESS, PHONE_NUMBER nebo DATE_OF_BIRTH ve stejném dokumentu má nižší skóre spolehlivosti.
anonym.legal implementuje tento třívrstvý přístup, dosahující 91,3% přesnosti v benchmarcích obchodních dokumentů — versus 22,7 % základní linie Presidia.
Zdroje: Srovnávací studie NER Presidia (2024) · spaCy en_core_web_lg dokumentace · GDPR článek 5 — přesnost dat