Takaisin BlogiinTekninen

Väärän positiivisen vero: Miksi PII-työkalusi...

Presidio GitHub -ongelma #1071 dokumentoi systemaattisia vääriä positiivisia.

April 3, 20268 min lukuaika
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Näkymätön vaatimustenmukaisuuden vero

PII-tunnistustyökaluja arvioidaan tyypillisesti muistista — kuinka suuri prosenttiosuus todellisista PII:stä työkalu onnistui tunnistamaan? Mutta tarkkuus — kuinka suuri prosenttiosuus työkalun tunnistuksista on todellista PII:tä — määrittää työkalun käytön operatiiviset kustannukset.

Järjestelmä, jolla on 95 % muistia ja 22,7 % tarkkuutta, tunnistaa 95 % todellisista PII:stä, mutta jokaiselle todelliselle PII-yksikölle se merkitsee 3,4 väärää positiivista. Datasettejä, jotka sisältävät 10 000 todellista PII-yksikköä, tämä järjestelmä tuottaa 10 000 / 0.227 ≈ 44 000 kokonais tunnistusta, joista 34 000 on vääriä positiivisia, jotka vaativat manuaalista tarkastusta tai aiheuttavat liiallista punakynäystä.

Tämä on "väärän positiivisen vero": operatiivinen ylikuormitus, joka kohdistuu mihin tahansa organisaatioon, joka yrittää käyttää korkeaa muistia, matalan tarkkuuden PII-tunnistusjärjestelmää tuotantomittakaavassa. Väärän positiivisen verolla on suoria kustannuksia — manuaalisen tarkastajan aikaa — ja epäsuoria kustannuksia: liiallisesti punakynätyt asiakirjat peittävät olennaista tietoa, hidastavat työnkulkuja ja vähentävät luottamusta automatisoituun järjestelmään.

Mitä Presidio-ongelma #1071 dokumentoi

Microsoft Presidio GitHub -keskustelu #1071 (2024) dokumentoi erityisen ja systemaattisen väärän positiivisen mallin. TFN (verotiedoston numero) ja PCI-tunnistimet, joissa on tarkistussumma, tuottavat luottamusarvoja 1.0 — maksimaalinen luottamus — ei-PII-numeroille, jotka sattuvat läpäisemään tarkistussumman algoritmin.

Suunnitteluongelma: kontekstisanojen tarkistus (varmistaminen, että sanat kuten "verotiedoston numero" tai "TFN" esiintyvät lähellä tunnistettua yksikköä) sovelletaan sen jälkeen kun tarkistussumma on suoritettu, ei ennen. Numerot, jotka läpäisevät tarkistussumman, saavat 1.0-arvon riippumatta kontekstista. Asiakirjoissa, jotka sisältävät numeerista dataa — taloudelliset taulukot, tieteelliset datasetit, lokitiedostot — tämä tuottaa tulvan vääriä positiivisia, joita ei voida suodattaa pelkästään pistekynnystä käyttäen.

Erityinen malli Presidio-yhteisöltä (GitHub-ongelma #999): saksalainen sanajako luo vääriä positiivisia nimille ja sijainneille. Saksalaiset yhdyssanat kuten "Bundesbehörde" (liittovaltion viranomainen) tai yleiset saksankieliset termit voidaan jakaa väärin ja tunnistaa henkilökohtaisiksi nimiksi.

22,7 % tarkkuusongelma

Alvaro et al. (2024) arvioivat Presidio-oletusasetuksia sekoitetuissa kieliyritysdataseteissa ja löysivät 22,7 % tarkkuuden — mikä tarkoittaa, että todellisissa yritysdokumenteissa vähemmän kuin 1/4 Presidio-tunnistuksista vastaa todellista PII:tä. Tämä luku on yhdenmukainen käytännön asiantuntijoiden kenttäkokemuksen kanssa: Presidio, joka on viritetty muistia varten, tuottaa käyttökelvotonta melua tuotannossa.

Vuoden 2024 tutkimus, joka tutki DICOM-lääketieteellisiä kuvadataa, löysi, että jopa score_threshold=0.7:llä, 38/39 DICOM-kuvasta oli edelleen vääriä positiivisia yksiköitä. Kynnys, joka eliminoi vääriä positiivisia yhdelle asiakirjatyyppille, luo vääriä negatiivisia toiselle.

Tarkkuusongelma ei ole ainutlaatuinen Presidion osalta — se heijastaa sisäistä vaikeutta rakentaa korkeaa muistia omaavaa PII-tunnistinta, joka myös saavuttaa korkean tarkkuuden eri asiakirjatyyppien, kielten ja datamuotojen välillä. Haasteena on, että mikä tahansa kiinteä kynnys edustaa kauppaa: korkea kynnys vähentää vääriä positiivisia, mutta lisää vääriä negatiivisia; matala kynnys lisää muistia, mutta paisuttaa vääriä positiivisia.

Kontekstiin perustuva ratkaisu

Vaihtoehto kynnyksen säätämiselle on kontekstiin perustuva luottamusarviointi. Sen sijaan, että luottamus määritetään pelkästään yksikkömallin perusteella, kontekstiin perustuva arviointi lisää luottamusta, kun kontekstisanat esiintyvät lähellä vastausta ja vaimentaa vääriä positiivisia, kun konteksti on poissa.

TFN-tunnistuksessa: pistettä nostetaan, kun "verotiedoston numero", "TFN" tai "Australian verot" esiintyy konfiguroitavassa ikkunassa. Numero, joka läpäisee TFN-tarkistussumman ilman lähellä olevia kontekstisanoja, saa alennetun luottamusarvon, joka jää tarkastuskynnyksen alle.

Kielirajojen ylittävissä väärissä positiivisissa: yksikkötyypit, jotka ovat erityisiä tietyille kielille (saksalainen verotunnus, ranskalainen NIR, australialainen TFN), voidaan rajata asiakirjoihin, jotka on tunnistettu kyseiseksi kieleksi. TFN-tunnistin, joka sovelletaan vain englanninkielisiin ja australialais-englanninkielisiin asiakirjoihin, eliminoi systemaattiset väärät positiiviset, jotka esiintyvät, kun sama tunnistin toimii saksankielisissä asiakirjoissa.

Kolmas kerros hybriditunnistuksessa — muunninperusteiset kontekstimallit — lisää toisen tason: malli arvioi koko ympäröivän kontekstin erottamaan aito henkilökohtainen nimi ("John Smith, Potilastunnus 12345") väärästä positiivisesta (tuotetunnus, joka sattuu vastaamaan nimimallia).

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.