A téves riasztások ára a PII-detektáló eszközöknél

Frissítve 2026-ra

A legtöbb PII-eszközt a visszahívási arány alapján ítélik meg. A visszahívás azt méri, hogy az eszköz a valódi személyes adatok mekkora hányadát találja meg. A pontosság azonban éppannyira fontos. A pontosság azt méri, hogy az eszköz riasztásainak mekkora hányada valódi személyes adat.

Az alacsony pontosság drága. Egy 95%-os visszahívással és 22,7%-os pontossággal működő rendszer megfogja a legtöbb személyes adatot. Mégis, minden valódi személyes adat entitásra, amelyet megjelöl, 3,4 téves riasztást is generál. Egy 10 000 valódi személyes adat entitást tartalmazó adatkészletben ez a rendszer körülbelül 44 000 riasztást generál. Ezek közül nagyjából 34 000 téves. Mindegyik ellenőrzési időt emészt fel, vagy túlzott mértékű kitakarást okoz.

Ez a téves riasztások ára. Ez az a többletteher, amelyet minden csapat visel, ha nagy visszahívású, alacsony pontosságú PII-rendszert futtat nagy léptékben. A közvetlen költség az ellenőrök ideje. A közvetett költség ennél rosszabb: a túlzottan kitakart dokumentumok elrejtik a hasznos adatokat, lassítják a munkát és aláássák a bizalmat az eszközben.

Mit mutat a Presidio-issue #1071

A Microsoft Presidio GitHub-vita #1071 (2024) egy konkrét mintát rögzít. A TFN (adóazonosító szám) és a PCI-felismerők ellenőrzőösszeg-validálást alkalmaznak. Az ellenőrzőösszegen átmenő számok 1,0-ás — maximális megbízhatósági — pontszámot kapnak. Személyes adat-kontextus nem szükséges.

A kiváltó ok: a kontextuális szóellenőrzés az ellenőrzőösszeg-lépés után fut, nem előtte. Egy ellenőrzőösszegen átmenő szám a körülvevő szövegtől függetlenül maximális pontszámot kap. Pénzügyi táblázatokban, tudományos adatkészletekben vagy naplófájlokban ez elárasztja a kimenetet téves riasztásokkal. A pontszámküszöb-szűrés nem tudja javítani. A pontszámok már maximumon vannak.

Egy második minta jelenik meg a Presidio-issue #999-ben. A német szótagolás összetett főneveknél hibázik. Az olyan szavak, mint a Bundesbehörde (szövetségi hatóság), helytelenül tagolódhatnak, és személynevekként jelölődhetnek meg. Ez zajt ad hozzá bármely német nyelvű dokumentumhoz.

A 22,7%-os pontossági probléma

Alvaro és munkatársai (2024) vegyes nyelvű vállalati adatkészleteken tesztelték a Presidio-t. 22,7%-os pontosságot találtak. Valós dokumentumokban a Presidio-riasztások kevesebb mint negyede valódi személyes adat entitás. Ez megegyezik azzal, amit a szakemberek tapasztalnak. A kizárólag visszahívásra hangolt eszköz túl sok zajt termel az éles használathoz.

Egy 2024-es DICOM-tanulmány kimutatta, hogy a score_threshold 0,7-re emelése még mindig téves riasztásokat hagyott 39 orvosi képből 38-ban. Egy küszöb, amely egy dokumentumtípusban csökkenti a zajt, egy másikban növeli a hiányokat.

Ez nem Presidio-specifikus probléma. Bármely rögzített küszöb kompromisszumot kényszerít ki. A magas küszöb csökkenti a zajt, de növeli a hiányokat. Az alacsony küszöb növeli a visszahívást, de felfújja a riasztások számát.

Kontextustudatos pontozás

A megoldás a kontextustudatos megbízhatósági pontozás. Ahelyett, hogy a rendszer csak a mintaillesztés alapján pontozna, az egyezés közelében lévő kontextuális szavak megjelenésekor növeli a megbízhatóságot. Kontextus hiányában csökkenti a pontszámot.

TFN-detektálás esetén: az „adóazonosító szám”, „TFN” vagy „ausztrál adó” szavak egy szám közelében növelik a pontszámát. Az ellenőrzőösszegen átmenő, de közeli kontextuális szavak nélküli szám az ellenőrzési küszöb alá kerül. A téves riasztást elnyomják.

Keresztnyelvű zaj esetén: az egyes országokhoz kötött entitástípusok a megfelelő nyelvű dokumentumokra korlátozhatók. Az angolra és ausztrál angolra korlátozott TFN-detektor csökkenti a zajt. Határokon belüli futtatása nélküli német tartalmon a probléma forrása.

A hibrid rendszer harmadik rétege egy transzformermodell. Ez az egyes jelöltek körüli teljes kontextuális ablakot olvassa. Megkülönbözteti a „John Smith, Betegazonosító: 12345” bejegyzést egy olyan termékkódtól, amely névazonossági mintát követ. A kontextus feloldja azt a kétértelműséget, amelyet a regex és az ellenőrzőösszegek nem tudnak kezelni.

Tekintse meg, hogyan kezeli a háromszintű detektálási motor a pontosságot nagy léptékben. A többnyelvű PII-detektálási útmutató ismerteti, hogyan befolyásolja a keresztnyelvű zaj a GDPR-megfelelést.

Gyakorlati lépések

Bármely PII-eszköz bevezetése előtt mérje meg annak pontosságát — ne csak a visszahívást.

Futtassa az eszközt egy ismert személyes adatokat és nem személyes adatokat tartalmazó dokumentumkészleten. Számlálja meg a riasztásokat mindkét csoportban. Számítsa ki a valós_pozitívak / (valós_pozitívak + téves_pozitívak) értéket. Ez a szám feltárja az ellenőrzési terhet, mielőtt bevezetési döntést hoz.

A Presidio-t már használó csapatok számára a pontszámeloszlás-elemzés gyors lehetőség. Exportáljon egy mintát a detektálásokból a megbízhatósági pontszámaikkal. Számolja meg, hány kerül 0,6, 0,7 és 0,8 alá. Tiszta szövegben sok magas pontszámú riasztás kontextuális hézagot jelez, nem küszöbproblémát. A biztonsági megfelelési áttekintő magyarázza el, hogyan dokumentálja ezt egy adatvédelmi hatásvizsgálatban.

Források

Microsoft Presidio GitHub-vita #1071: szisztematikus téves riasztások.
Microsoft Presidio GitHub-issue #999: Német nyelvi téves riasztási minták.
Alvaro és munkatársai (2024): Presidio pontossága vegyes nyelvű vállalati adatkészleteken.
DICOM pontszámküszöb-elemzés — Microsoft Presidio közösség.

Kapcsolódó Cikkek

Technikai

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

Ingyenes Próbát Kezd Funkciók Megtekintése

A téves riasztások ára a személyes adat-detektáló eszközöknél

A téves riasztások ára a PII-detektáló eszközöknél

Mit mutat a Presidio-issue #1071

A 22,7%-os pontossági probléma

Kontextustudatos pontozás

Gyakorlati lépések

Források

Kapcsolódó Cikkek

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Készen áll az adatai védelmére?

A téves riasztások ára a személyes adat-detektáló eszközöknél

A téves riasztások ára a PII-detektáló eszközöknél

Mit mutat a Presidio-issue #1071

A 22,7%-os pontossági probléma

Kontextustudatos pontozás

Gyakorlati lépések

Források

Kapcsolódó Cikkek

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Készen áll az adatai védelmére?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow