A Presidio 22,7%-os precizitási problémája

A személyes adat felismerésben előforduló téves pozitívok valódi kárt okoznak. Ha az eszközöd által „személynévként” jelölt elemek 77,3%-a nem valódi név, nem az adatvédelmet szolgálod. Az adatokat teszed tönkre.

Egy 2024-es benchmark a Microsoft Presidio alapértelmezett NER-modelljét tesztelte üzleti dokumentumokon. A teszt pénzügyi jelentéseket, ügyfélleveket, termékdokumentumokat és ügyfélszolgálati jegyeket ölelt fel. Eredmény: 22,7%-os precizitás névfelismerés terén.

Ez a szám megdöbbentő. 100 jelölt elemből 23 valódi személynév. A többi 77 téves pozitív — termékjelzések, márkanevűek vagy városnevűek.

Négyből három felismerés téves. Ez nem kisebb kalibrálási probléma. Ez egy törött eszköz üzleti dokumentumok feldolgozásához.

Miért történik ez?

A Presidio alapértelmezés szerint a spaCy en_core_web_lg modelljét használja. Ez a modell hírtexteken tanult. A hírekben a legtöbb tulajdonnév valódi személyre vagy helyre utal.

Az üzleti dokumentumok mások.

Termékcímkék, amelyek személyneveknek tűnnek. Az „Apple iPhone 15 Pro szállítmányi rekordok” PERSON-ként kerül jelölésre. Ugyanígy a „Samsung Galaxy Tab” és a „Cisco Meraki telepítés” is.

Névszerű részeket tartalmazó céges kifejezések. A „Johnson Controls eredmények” szövegben a „Johnson” szó PERSON-ként kerül jelölésre. A „Goldman Sachs portfólió” ugyanezt a hibát váltja ki.

Helyszíncímkék, amelyek személyfelismerést aktiválnak. A „Victoria Harbour projekt” szövegben a „Victoria” PERSON-ként kerül jelölésre. A „Santiago hub” esetén a „Santiago” ugyanígy.

A modellnek nincs kontextusa ahhoz, hogy megkülönböztesse az „Apple” céget az „Apple Smith” személytől. Ez a hiányosság okozza a legtöbb téves pozitívot. A hírtextek arra tanították, hogy a tulajdonneveket személyekként vagy helyekként kezelje. Az üzleti szöveg ezt a szabályt folyamatosan megsérti.

A következmény

Egy adatcég a Presidio-t arra használta, hogy ügyfél-kérdőíveket tisztítson meg megosztás előtt. Egy audit négy problémát tárt fel. Először: a kérdőívek 40%-ában termékcímkéket tévesen eltávolítottak. Másodszor: városneveket töröltek minden válaszból. Harmadszor: márkaneveket töröltek az elemzési készletből. Negyedszer: az egyes termékekre vonatkozó hangulati adatok nem olvashatók.

Az elemzőcsapat redakált szöveget kapott, amelyből minden termékhivatkozás hiányzott. Az eredeti kérdőív az iPhone Pro-t és az Apple töltőt nevesítette. Ez a tartalom eltűnt.

A cég nem védte jobban az adatvédelmet. Tönkretette az adatokat anélkül, hogy megfelelőségi előnyt szerzett volna. A Presidio-t az audit után lecserélték.

Lásd a megfelelőségi áttekintőnket, ahol részletezzük, hogyan hat a felismerési minőség a szabályozási státuszra.

Jobb megközelítés: hibrid felismerés

A probléma nem egyedi a Presidio-nál. A kontextus nélküli token-szintű NER esetén mindig fennáll ez a probléma. A megoldás a kontextustudatos felismerés.

Miért segítenek a transformer modellek: Egy XLM-RoBERTa-hoz hasonló modell az egész mondatot olvassa. „Az Apple bejelentette eredményeit” → Az Apple cég. „Apple Smith csatlakozott a csapathoz” → Az Apple keresztnév. A kontextus megmondja, melyik melyik.

Ez javítja a precizitást, miközben fenntartja a visszahívást. Lásd az alábbi összehasonlítást.

Megközelítés	Precizitás	Visszahívás
Presidio alapértelmezett NER	22,7%	~85%
Csak regex	~95%	~40%
Hibrid (Regex + NLP + Transformer)	~85%	~80%

A hibrid megközelítés 85%-os precizitást ér el. Ez 15%-os téves pozitív arányt jelent. Sokkal jobb, mint a 77,3%. Üzleti dokumentumoknál ez a különbség számít.

A hibrid megközelítés négy lépésből áll:

Regex-réteg: Strukturált azonosítókat keres — e-mail-címeket, telefonszámokat, SSN-eket, IBAN-okat. A formátumok rögzítettek, így a téves pozitívok ritkák. Ez fut először.
NLP-réteg (spaCy): Szokványos NER személyekre, cégekre és helyekre. Magas visszahívás, alacsonyabb precizitás.
Transformer-réteg (XLM-RoBERTa): Minden NLP-eredményt újra pontozza a teljes mondatkontextus alapján. Az „Apple” termékkontextusban elveszti az entitáspontszámát. A „János” panaszos szövegben megkapja azt.
Megbízhatósági küszöb: Csak a megadott pontszám feletti találatok kerülnek a kimenetbe. Emeld a küszöböt analitikai felhasználási esetekre. Csökkentsd HIPAA-szerinti azonosítómentesítésnél.

Az eredmény átállás után

Az analitikai cég hibrid felismerésre váltott. A nyereségek egyértelműek voltak. A termékcímkék téves pozitívjai 40%-ról 3%-ra csökkentek. A városnevűek téves pozitívjai közel nullára estek. A valódi személyazonosság visszahívása ~82%-on maradt, kissé elmaradva a 85%-tól, de a precizitás jelentősen javult.

A kérdőívek ismét használhatókká váltak. Az „iPhone”, az „Apple”, a „Samsung” és a „Chicago” megmaradt a szövegben. A panaszos szövegkörnyezetben szereplő ügyfélneveket helyesen eltávolították.

A hibrid felismerés több számítási kapacitást igényel. Nagy feladatoknál a futási idők valamivel hosszabbak. A legtöbb üzleti felhasználási esetben a pontossági nyereség megéri. A cég ismét elvégezhette az elemzést. Ez volt a kérdőíves adatok egész lényege.

Lásd a felismerési megközelítésünkről szóló leírást a biztonsági áttekintőben.

Mikor elfogadható a magas téves pozitív arány?

Bizonyos esetekben a visszahívás fontosabb a precizitásnál.

HIPAA Safe Harbor: Egy valódi pozitív kihagyása jogsértés. 10%-os téves pozitív arány elfogadható, ha a valódi PHI sohasem marad ki. A túlzott eltávolítás biztonságosabb a nem elégséges eltávolításnál.

Jogi felülvizsgálat: Egy privilegizált kapcsolat kihagyása feladhatja a kiváltságot. A téves pozitívok felülvizsgálatra szorulnak, de nem keletkeztetnek felelősséget.

Üzleti analitika: A túlzott eltávolítás tönkreteszi az adatokat megfelelőségi nyereség nélkül. A precizitás itt fontosabb. Használj hibrid megközelítést magas megbízhatósági küszöbbel. Ez a márkajelzéseket és városneveket megőrzi a kimenetben. Csak a tényleges személyneveket távolítja el.

A megfelelő egyensúly a felhasználási esettől függ. A küszöb beállítását lehetővé tevő eszközök kontrollt adnak. Egyetlen alapértelmezés sem működik minden kontextusban.

Lásd a GYIK-et a küszöbértékekkel és felismerési módokkal kapcsolatos gyakori kérdésekért.

Összefoglalás

A 22,7%-os precizitási arány azt jelenti, hogy négyből 3 felismerés téves. Üzleti dokumentumoknál ez a kimenet elemzésre alkalmatlanná válik. Hamis megfelelőségi biztonságérzetet is ad.

A hibrid felismerés megoldja ezt. Kombinálja a regexet, az NLP-t és a transformer pontozást. Az adatok anonymizálás után is hasznosak maradnak. A valódi személyneveket eltávolítják. A márkajelzések, városnevek és termékidentifikátorok megmaradnak.

Ha a téves pozitívok miatt hagytad el a Presidio-t, ez a továbblépés útja. Nem ugyanazon modell új konfigurációja. Egy másik architektúra, amelyet üzleti dokumentumkontextusokra terveztek.

Források

Priva PII Benchmark 2024: Presidio Precizitás-értékelés. VERIFIED-EXTERNAL.

Microsoft Presidio: Támogatott entitások és modellarchitektúra. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg tanítóadatok és korlátok. VERIFIED-EXTERNAL.

Kapcsolódó Cikkek

Technikai

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

A Presidio 22,7%-os precizitási problémája