A Presidio 22,7%-os precizitási problémája
A személyes adat felismerésben előforduló téves pozitívok valódi kárt okoznak. Ha az eszközöd által „személynévként” jelölt elemek 77,3%-a nem valódi név, nem az adatvédelmet szolgálod. Az adatokat teszed tönkre.
Egy 2024-es benchmark a Microsoft Presidio alapértelmezett NER-modelljét tesztelte üzleti dokumentumokon. A teszt pénzügyi jelentéseket, ügyfélleveket, termékdokumentumokat és ügyfélszolgálati jegyeket ölelt fel. Eredmény: 22,7%-os precizitás névfelismerés terén.
Ez a szám megdöbbentő. 100 jelölt elemből 23 valódi személynév. A többi 77 téves pozitív — termékjelzések, márkanevűek vagy városnevűek.
Négyből három felismerés téves. Ez nem kisebb kalibrálási probléma. Ez egy törött eszköz üzleti dokumentumok feldolgozásához.
Miért történik ez?
A Presidio alapértelmezés szerint a spaCy en_core_web_lg modelljét használja. Ez a modell hírtexteken tanult. A hírekben a legtöbb tulajdonnév valódi személyre vagy helyre utal.
Az üzleti dokumentumok mások.
Termékcímkék, amelyek személyneveknek tűnnek. Az „Apple iPhone 15 Pro szállítmányi rekordok” PERSON-ként kerül jelölésre. Ugyanígy a „Samsung Galaxy Tab” és a „Cisco Meraki telepítés” is.
Névszerű részeket tartalmazó céges kifejezések. A „Johnson Controls eredmények” szövegben a „Johnson” szó PERSON-ként kerül jelölésre. A „Goldman Sachs portfólió” ugyanezt a hibát váltja ki.
Helyszíncímkék, amelyek személyfelismerést aktiválnak. A „Victoria Harbour projekt” szövegben a „Victoria” PERSON-ként kerül jelölésre. A „Santiago hub” esetén a „Santiago” ugyanígy.
A modellnek nincs kontextusa ahhoz, hogy megkülönböztesse az „Apple” céget az „Apple Smith” személytől. Ez a hiányosság okozza a legtöbb téves pozitívot. A hírtextek arra tanították, hogy a tulajdonneveket személyekként vagy helyekként kezelje. Az üzleti szöveg ezt a szabályt folyamatosan megsérti.
A következmény
Egy adatcég a Presidio-t arra használta, hogy ügyfél-kérdőíveket tisztítson meg megosztás előtt. Egy audit négy problémát tárt fel. Először: a kérdőívek 40%-ában termékcímkéket tévesen eltávolítottak. Másodszor: városneveket töröltek minden válaszból. Harmadszor: márkaneveket töröltek az elemzési készletből. Negyedszer: az egyes termékekre vonatkozó hangulati adatok nem olvashatók.
Az elemzőcsapat redakált szöveget kapott, amelyből minden termékhivatkozás hiányzott. Az eredeti kérdőív az iPhone Pro-t és az Apple töltőt nevesítette. Ez a tartalom eltűnt.
A cég nem védte jobban az adatvédelmet. Tönkretette az adatokat anélkül, hogy megfelelőségi előnyt szerzett volna. A Presidio-t az audit után lecserélték.
Lásd a megfelelőségi áttekintőnket, ahol részletezzük, hogyan hat a felismerési minőség a szabályozási státuszra.
Jobb megközelítés: hibrid felismerés
A probléma nem egyedi a Presidio-nál. A kontextus nélküli token-szintű NER esetén mindig fennáll ez a probléma. A megoldás a kontextustudatos felismerés.
Miért segítenek a transformer modellek: Egy XLM-RoBERTa-hoz hasonló modell az egész mondatot olvassa. „Az Apple bejelentette eredményeit” → Az Apple cég. „Apple Smith csatlakozott a csapathoz” → Az Apple keresztnév. A kontextus megmondja, melyik melyik.
Ez javítja a precizitást, miközben fenntartja a visszahívást. Lásd az alábbi összehasonlítást.
| Megközelítés | Precizitás | Visszahívás |
|---|---|---|
| Presidio alapértelmezett NER | 22,7% | ~85% |
| Csak regex | ~95% | ~40% |
| Hibrid (Regex + NLP + Transformer) | ~85% | ~80% |
A hibrid megközelítés 85%-os precizitást ér el. Ez 15%-os téves pozitív arányt jelent. Sokkal jobb, mint a 77,3%. Üzleti dokumentumoknál ez a különbség számít.
A hibrid megközelítés négy lépésből áll:
-
Regex-réteg: Strukturált azonosítókat keres — e-mail-címeket, telefonszámokat, SSN-eket, IBAN-okat. A formátumok rögzítettek, így a téves pozitívok ritkák. Ez fut először.
-
NLP-réteg (spaCy): Szokványos NER személyekre, cégekre és helyekre. Magas visszahívás, alacsonyabb precizitás.
-
Transformer-réteg (XLM-RoBERTa): Minden NLP-eredményt újra pontozza a teljes mondatkontextus alapján. Az „Apple” termékkontextusban elveszti az entitáspontszámát. A „János” panaszos szövegben megkapja azt.
-
Megbízhatósági küszöb: Csak a megadott pontszám feletti találatok kerülnek a kimenetbe. Emeld a küszöböt analitikai felhasználási esetekre. Csökkentsd HIPAA-szerinti azonosítómentesítésnél.
Az eredmény átállás után
Az analitikai cég hibrid felismerésre váltott. A nyereségek egyértelműek voltak. A termékcímkék téves pozitívjai 40%-ról 3%-ra csökkentek. A városnevűek téves pozitívjai közel nullára estek. A valódi személyazonosság visszahívása ~82%-on maradt, kissé elmaradva a 85%-tól, de a precizitás jelentősen javult.
A kérdőívek ismét használhatókká váltak. Az „iPhone”, az „Apple”, a „Samsung” és a „Chicago” megmaradt a szövegben. A panaszos szövegkörnyezetben szereplő ügyfélneveket helyesen eltávolították.
A hibrid felismerés több számítási kapacitást igényel. Nagy feladatoknál a futási idők valamivel hosszabbak. A legtöbb üzleti felhasználási esetben a pontossági nyereség megéri. A cég ismét elvégezhette az elemzést. Ez volt a kérdőíves adatok egész lényege.
Lásd a felismerési megközelítésünkről szóló leírást a biztonsági áttekintőben.
Mikor elfogadható a magas téves pozitív arány?
Bizonyos esetekben a visszahívás fontosabb a precizitásnál.
HIPAA Safe Harbor: Egy valódi pozitív kihagyása jogsértés. 10%-os téves pozitív arány elfogadható, ha a valódi PHI sohasem marad ki. A túlzott eltávolítás biztonságosabb a nem elégséges eltávolításnál.
Jogi felülvizsgálat: Egy privilegizált kapcsolat kihagyása feladhatja a kiváltságot. A téves pozitívok felülvizsgálatra szorulnak, de nem keletkeztetnek felelősséget.
Üzleti analitika: A túlzott eltávolítás tönkreteszi az adatokat megfelelőségi nyereség nélkül. A precizitás itt fontosabb. Használj hibrid megközelítést magas megbízhatósági küszöbbel. Ez a márkajelzéseket és városneveket megőrzi a kimenetben. Csak a tényleges személyneveket távolítja el.
A megfelelő egyensúly a felhasználási esettől függ. A küszöb beállítását lehetővé tevő eszközök kontrollt adnak. Egyetlen alapértelmezés sem működik minden kontextusban.
Lásd a GYIK-et a küszöbértékekkel és felismerési módokkal kapcsolatos gyakori kérdésekért.
Összefoglalás
A 22,7%-os precizitási arány azt jelenti, hogy négyből 3 felismerés téves. Üzleti dokumentumoknál ez a kimenet elemzésre alkalmatlanná válik. Hamis megfelelőségi biztonságérzetet is ad.
A hibrid felismerés megoldja ezt. Kombinálja a regexet, az NLP-t és a transformer pontozást. Az adatok anonymizálás után is hasznosak maradnak. A valódi személyneveket eltávolítják. A márkajelzések, városnevek és termékidentifikátorok megmaradnak.
Ha a téves pozitívok miatt hagytad el a Presidio-t, ez a továbblépés útja. Nem ugyanazon modell új konfigurációja. Egy másik architektúra, amelyet üzleti dokumentumkontextusokra terveztek.
Források
Priva PII Benchmark 2024: Presidio Precizitás-értékelés. VERIFIED-EXTERNAL.
Microsoft Presidio: Támogatott entitások és modellarchitektúra. VERIFIED-EXTERNAL.
spaCy: en_core_web_lg tanítóadatok és korlátok. VERIFIED-EXTERNAL.