Porez na lazne pozitive PII alata za detekciju
Azurirano za 2026.
Vecina PII alata ocjenjuje se prema odazivu. Odaziv mjeri koji udio stvarnog PII-a alat pronalazi. No preciznost je jednako vazna. Preciznost mjeri koji udio upozorenja alata su stvarni PII.
Niska preciznost je skupa. Sustav s 95% odazivom i 22,7% preciznosti hvata vecinu PII-a. Ipak, za svaki stvarni PII entitet koji oznaci, takoder pokrece 3,4 pogresna upozorenja. U skupu podataka s 10.000 stvarnih PII entiteta, taj sustav generira otprilike 44.000 upozorenja. Oko 34.000 od njih je pogresno. Svako kosta vrijeme za pregled ili uzrokuje prekomjerno crnljenje.
Ovo je porez na lazne pozitive. To su troskovi koje svaki tim placa kada pokrece PII sustav visokog odaziva i niske preciznosti u velikom mjerilu. Izravni trosak je vrijeme recenzenta. Neizravni trosak je gori: prekomjerno ocrnljeni dokumenti skrivaju korisne podatke, usporavaju rad i erodiraju povjerenje u alat.
Sto pokazuje Presidio problem #1071
Microsoft Presidio GitHub rasprava #1071 (2024.) biljezi specificni uzorak. Prepoznavaci TFN (porezni identifikacijski broj) i PCI koriste provjeru kontrolnog zbroja. Brojevi koji prolaze kontrolni zbroj dobivaju ocjenu od 1,0 - maksimalno povjerenje. Nije potreban kontekst PII-a.
Temeljni uzrok: provjera kontekstnih rijeci izvrsava se nakon koraka kontrolnog zbroja, a ne prije. Broj koji prolazi kontrolni zbroj dobiva vrhunsku ocjenu bez obzira na okolni tekst. U financijskim proracunskim tablicama, znanstvenim skupovima podataka ili log datotekama, to preplavljuje izlaz pogresnim upozorenjima. Filtriranje praga ocjene to ne moze popraviti. Ocjene su vec na maksimumu.
Drugi uzorak pojavljuje se u Presidio problemu #999. Njemacka segmentacija rijeci raspada se za slozene imenice. Rijeci poput Bundesbehorde (savezno tijelo) mogu se pogresno podijeliti i oznaciti kao osobna imena. To dodaje sum u svaki njemacki dokument.
Problem preciznosti od 22,7%
Alvaro i sur. (2024.) testirali su Presidio na skupovima podataka tvrtki s mijesanim jezicima. Pronasli su preciznost od 22,7%. U stvarnim dokumentima, manje od jednog od cetiri Presidio upozorenja je stvarni PII entitet. To se podudara s onim sto pruzatelji usluga izvjescuju. Alat podesen samo za odaziv proizvodi previse suma za produkcijsku upotrebu.
Studija DICOM iz 2024. pokazala je da podizanje score_threshold na 0,7 jos uvijek ostavlja pogresna upozorenja u 38 od 39 medicinskih slika. Prag koji cisti sum u jednoj vrsti dokumenta stvara propustene detekcije u drugoj.
Ovo nije problem samo Presidia. Bilo koji fiksni prag namece kompromis. Visoki prag smanjuje sum, ali povecava propuste. Niski prag povecava odaziv, ali napuhuje broj upozorenja.
Ocjenjivanje svjesno konteksta
Popravak je ocjenjivanje povjerenja svjesno konteksta. Umjesto ocjenjivanja samo na temelju podudaranja uzorka, sustav povecava povjerenje kada se kontekstne rijeci pojavljuju blizu podudaranja. Takoder smanjuje ocjenu kada kontekst nedostaje.
Za detekciju TFN-a: rijeci poput "tax file number", "TFN" ili "Australian tax" blizu broja povecavaju njegovu ocjenu. Broj koji prolazi kontrolni zbroj, ali nema obliznjih kontekstnih rijeci, ocjenjuje se ispod praga pregleda. Lazno upozorenje se suzbija.
Za medjujezicni sum: vrste entiteta vezane za specificne drzave mogu biti opsegom ogranicene na dokumente na odgovarajucem jeziku. Detektor TFN-a opsegom ogranicen na engleski i australski engleski uklanja sum. Pokretanje bez opsega na njemackom sadrzaju je izvor problema.
Treci sloj u hibridnom sustavu je transformer model. On cita cijeli kontekstni prozor oko svakog kandidata. Razlikuje "Ivan Horvat, ID pacijenta 12345" od sifre proizvoda koja odgovara uzorku imena. Kontekst razrijesava dvosmislenost koju regex i kontrolni zbrojevi ne mogu.
Pogledajte kako trostupanjski modul za detekciju rukuje preciznoscu u velikom mjerilu. Vodic za visejezicnu PII detekciju pokriva kako medjujezicni sum utjece na GDPR uskladenost.
Prakticni koraci
Prije implementacije bilo kojeg PII alata, izmjerite njegovu preciznost, a ne samo odaziv.
Pokrenite alat na skupu dokumenata s poznatim PII-em i poznatim ne-PII-em. Prebrojite upozorenja u obje grupe. Izracunajte true_positives / (true_positives + false_positives). Ovaj broj otkriva teret pregleda prije nego sto se obvezete na implementaciju.
Za timove koji vec koriste Presidio, analiza raspodjele ocjena je brz put. Izvezite uzorak detekcija s njihovim ocjenama povjerenja. Prebrojite koliko ocjenjuju ispod 0,6, 0,7 i 0,8. Velik udio upozorenja s visokim ocjenama u cistom tekstu signalizira jaz u kontekstu, a ne problem praga. Pregled sigurnosne uskladenosti objasnjava kako ovo dokumentirati u DPIA.
Izvori
- Microsoft Presidio GitHub rasprava #1071: sustavne lazne pozitive.
- Microsoft Presidio GitHub problem #999: njemacki uzorci laznih pozitiva.
- Alvaro i sur. (2024.): Presidio preciznost na skupovima podataka tvrtki s mijesanim jezicima.
- DICOM analiza praga ocjene - Microsoft Presidio zajednica.