A Presidio hamis pozitívum problémája
A Presidio (Microsoft nyílt forráskódú PII-eszköze) elterjedt vállalati PII-felismerő eszköz. Egy 2024-es összehasonlító benchmark megállapította:
- 13 536 hamis pozitív névészlelés 4 434 mintán
- Névmások jelölve személynévként: „She" → PERSON
- Hajónevek jelölve személynévként: „Aurora" → PERSON (csillag- és hajónév-kontextusban)
- Országnevek jelölve személynévként: „Iraq" → PERSON (bizonyos kontextusban)
A 4 434 helyes személynévfelismerés melletti 13 536 hamis pozitívum azt jelenti, hogy a hamis pozitívumok aránya majdnem 3:1.
A gazdasági hatás
Jogi szerkesztés esetén
Egy 10 000 dokumentumos e-discovery produkció hamis pozitívumokkal:
- Minden hamis pozitívumot egy ügyvédnek kell felülvizsgálni
- 13 536 hamis pozitívum × 10 000 dokumentum = akár millió felülvizsgálandó tétel
- 200-400 $/óra ügyvédi idő × felülvizsgálati idő = hatalmas külön számla
Az automatizálás megtakarítja az alapszerkesztési munkát, de ha a hamis pozitívumok arány magas, a felülvizsgálati terhe visszaemészi a megtakarítást.
Egészségügyi de-azonosítás esetén
A hamis pozitívumok egészségügyi kontextusban különösen problémásak:
- „Dr. Jones" szerkesztve → elveszített orvosi kontextus
- „COVID-19" szerkesztve → elveszített diagnosztikai információ
- „New York" szerkesztve → elveszített földrajzi epidemiológiai adat
Az anonym.legal hibrid megközelítése
Az anonym.legal több rétegű megközelítéssel csökkenti a hamis pozitívumokat:
1. réteg: NER-modell
A kontextuális összefüggések elemzése csökkenti a szövegkörnyezet-érzéketlen hamis pozitívumokat.
2. réteg: Regex-ellenőrzés
A strukturált azonosítók (SSN, IBAN stb.) ellenőrző összeg érvényesítéssel szűrhetők.
3. réteg: Szótár-kizárások
Ismert nem-PII szavak (hajónevek, foglalkozásnevek, helyneveket stb.) kizárhatók.
4. réteg: Konfidencia-küszöb
Állítható küszöb: alacsony konfidenciájú esetleges PII-t megjelöli felülvizsgálatra.
Következtetés
A magas hamis pozitívum arány megszünteti az automatizálási ROI-t. A hibrid motor megközelítés – NLP + regex + szótár – drámaian csökkenti a hamis pozitívumokat.
Az anonym.legal hibrid architektúrája ezt a közgazdasági egyensúlyt biztosítja.