A téves riasztások ára a PII-detektáló eszközöknél
Frissítve 2026-ra
A legtöbb PII-eszközt a visszahívási arány alapján ítélik meg. A visszahívás azt méri, hogy az eszköz a valódi személyes adatok mekkora hányadát találja meg. A pontosság azonban éppannyira fontos. A pontosság azt méri, hogy az eszköz riasztásainak mekkora hányada valódi személyes adat.
Az alacsony pontosság drága. Egy 95%-os visszahívással és 22,7%-os pontossággal működő rendszer megfogja a legtöbb személyes adatot. Mégis, minden valódi személyes adat entitásra, amelyet megjelöl, 3,4 téves riasztást is generál. Egy 10 000 valódi személyes adat entitást tartalmazó adatkészletben ez a rendszer körülbelül 44 000 riasztást generál. Ezek közül nagyjából 34 000 téves. Mindegyik ellenőrzési időt emészt fel, vagy túlzott mértékű kitakarást okoz.
Ez a téves riasztások ára. Ez az a többletteher, amelyet minden csapat visel, ha nagy visszahívású, alacsony pontosságú PII-rendszert futtat nagy léptékben. A közvetlen költség az ellenőrök ideje. A közvetett költség ennél rosszabb: a túlzottan kitakart dokumentumok elrejtik a hasznos adatokat, lassítják a munkát és aláássák a bizalmat az eszközben.
Mit mutat a Presidio-issue #1071
A Microsoft Presidio GitHub-vita #1071 (2024) egy konkrét mintát rögzít. A TFN (adóazonosító szám) és a PCI-felismerők ellenőrzőösszeg-validálást alkalmaznak. Az ellenőrzőösszegen átmenő számok 1,0-ás — maximális megbízhatósági — pontszámot kapnak. Személyes adat-kontextus nem szükséges.
A kiváltó ok: a kontextuális szóellenőrzés az ellenőrzőösszeg-lépés után fut, nem előtte. Egy ellenőrzőösszegen átmenő szám a körülvevő szövegtől függetlenül maximális pontszámot kap. Pénzügyi táblázatokban, tudományos adatkészletekben vagy naplófájlokban ez elárasztja a kimenetet téves riasztásokkal. A pontszámküszöb-szűrés nem tudja javítani. A pontszámok már maximumon vannak.
Egy második minta jelenik meg a Presidio-issue #999-ben. A német szótagolás összetett főneveknél hibázik. Az olyan szavak, mint a Bundesbehörde (szövetségi hatóság), helytelenül tagolódhatnak, és személynevekként jelölődhetnek meg. Ez zajt ad hozzá bármely német nyelvű dokumentumhoz.
A 22,7%-os pontossági probléma
Alvaro és munkatársai (2024) vegyes nyelvű vállalati adatkészleteken tesztelték a Presidio-t. 22,7%-os pontosságot találtak. Valós dokumentumokban a Presidio-riasztások kevesebb mint negyede valódi személyes adat entitás. Ez megegyezik azzal, amit a szakemberek tapasztalnak. A kizárólag visszahívásra hangolt eszköz túl sok zajt termel az éles használathoz.
Egy 2024-es DICOM-tanulmány kimutatta, hogy a score_threshold 0,7-re emelése még mindig téves riasztásokat hagyott 39 orvosi képből 38-ban. Egy küszöb, amely egy dokumentumtípusban csökkenti a zajt, egy másikban növeli a hiányokat.
Ez nem Presidio-specifikus probléma. Bármely rögzített küszöb kompromisszumot kényszerít ki. A magas küszöb csökkenti a zajt, de növeli a hiányokat. Az alacsony küszöb növeli a visszahívást, de felfújja a riasztások számát.
Kontextustudatos pontozás
A megoldás a kontextustudatos megbízhatósági pontozás. Ahelyett, hogy a rendszer csak a mintaillesztés alapján pontozna, az egyezés közelében lévő kontextuális szavak megjelenésekor növeli a megbízhatóságot. Kontextus hiányában csökkenti a pontszámot.
TFN-detektálás esetén: az „adóazonosító szám”, „TFN” vagy „ausztrál adó” szavak egy szám közelében növelik a pontszámát. Az ellenőrzőösszegen átmenő, de közeli kontextuális szavak nélküli szám az ellenőrzési küszöb alá kerül. A téves riasztást elnyomják.
Keresztnyelvű zaj esetén: az egyes országokhoz kötött entitástípusok a megfelelő nyelvű dokumentumokra korlátozhatók. Az angolra és ausztrál angolra korlátozott TFN-detektor csökkenti a zajt. Határokon belüli futtatása nélküli német tartalmon a probléma forrása.
A hibrid rendszer harmadik rétege egy transzformermodell. Ez az egyes jelöltek körüli teljes kontextuális ablakot olvassa. Megkülönbözteti a „John Smith, Betegazonosító: 12345” bejegyzést egy olyan termékkódtól, amely névazonossági mintát követ. A kontextus feloldja azt a kétértelműséget, amelyet a regex és az ellenőrzőösszegek nem tudnak kezelni.
Tekintse meg, hogyan kezeli a háromszintű detektálási motor a pontosságot nagy léptékben. A többnyelvű PII-detektálási útmutató ismerteti, hogyan befolyásolja a keresztnyelvű zaj a GDPR-megfelelést.
Gyakorlati lépések
Bármely PII-eszköz bevezetése előtt mérje meg annak pontosságát — ne csak a visszahívást.
Futtassa az eszközt egy ismert személyes adatokat és nem személyes adatokat tartalmazó dokumentumkészleten. Számlálja meg a riasztásokat mindkét csoportban. Számítsa ki a valós_pozitívak / (valós_pozitívak + téves_pozitívak) értéket. Ez a szám feltárja az ellenőrzési terhet, mielőtt bevezetési döntést hoz.
A Presidio-t már használó csapatok számára a pontszámeloszlás-elemzés gyors lehetőség. Exportáljon egy mintát a detektálásokból a megbízhatósági pontszámaikkal. Számolja meg, hány kerül 0,6, 0,7 és 0,8 alá. Tiszta szövegben sok magas pontszámú riasztás kontextuális hézagot jelez, nem küszöbproblémát. A biztonsági megfelelési áttekintő magyarázza el, hogyan dokumentálja ezt egy adatvédelmi hatásvizsgálatban.
Források
- Microsoft Presidio GitHub-vita #1071: szisztematikus téves riasztások.
- Microsoft Presidio GitHub-issue #999: Német nyelvi téves riasztási minták.
- Alvaro és munkatársai (2024): Presidio pontossága vegyes nyelvű vállalati adatkészleteken.
- DICOM pontszámküszöb-elemzés — Microsoft Presidio közösség.