Väärien positiivisten vero PII-tunnistustyökaluissa
Päivitetty vuodelle 2026
Useimpia PII-työkaluja arvioidaan muistikyvyn perusteella. Muistikyky mittaa, kuinka suuren osan todellisesta PII:stä työkalu löytää. Tarkkuus on kuitenkin yhtä tärkeää. Tarkkuus mittaa, kuinka suuri osa työkalun hälytyksistä on todellista PII:tä.
Alhainen tarkkuus on kallista. Järjestelmä, jolla on 95 %:n muistikyky ja 22,7 %:n tarkkuus, löytää suurimman osan PII:stä. Silti jokaista todellista PII-entiteettiä kohti se tuottaa myös 3,4 väärää hälytystä. Aineistossa, jossa on 10 000 todellista PII-entiteettiä, tämä järjestelmä laukaisee noin 44 000 hälytystä. Noin 34 000 niistä on vääriä. Jokainen maksaa tarkistusaikaa tai aiheuttaa liiallista peittämistä.
Tämä on väärien positiivisten vero. Se on yleiskustannus, jonka jokainen tiimi maksaa pyörittäessään korkean muistikyvyn, alhaisen tarkkuuden PII-järjestelmää suuressa mittakaavassa. Suorat kustannukset ovat tarkastajan aika. Epäsuorat kustannukset ovat pahempia: liiaksi peitetyt asiakirjat piilottavat hyödyllistä dataa, hidastavat työtä ja nakertavat luottamusta työkaluun.
Mitä Presidio-ongelma #1071 osoittaa
Microsoft Presidio GitHub -keskustelu #1071 (2024) dokumentoi tietyn kaavan. TFN (Tax File Number)- ja PCI-tunnistimet käyttävät tarkistussumman vahvistusta. Tarkistussumman läpäisseet numerot saavat pisteet 1,0 — maksimiluottamus. PII-kontekstia ei vaadita.
Juurisyy: kontekstisanojen tarkistus suoritetaan tarkistussumman jälkeen, ei ennen. Tarkistussumman läpäissyt numero saa korkeimman pisteet riippumatta ympäröivästä tekstistä. Taloudellisissa laskentataulukoissa, tieteellisissä aineistoissa tai lokitiedostoissa tämä tulvii tuloksen väärillä hälytyksillä. Pistemääräkynnyksen suodatus ei voi korjata sitä. Pisteet ovat jo maksimissaan.
Toinen kaava näkyy Presidio-ongelmassa #999. Saksan sanaluokittelu hajoaa yhdyssanoille. Sanat kuten Bundesbehörde (liittovaltioviranomainen) voidaan jakaa väärin ja merkitä henkilönnimiksi. Tämä lisää melua missä tahansa saksankielisessä asiakirjassa.
22,7 %:n tarkkuusongelma
Alvaro ym. (2024) testasivat Presidiota sekakielisissä yritysaineistoissa. He löysivät 22,7 %:n tarkkuuden. Todellisissa asiakirjoissa alle yksi neljästä Presidio-hälytyksestä on todellinen PII-entiteetti. Tämä vastaa ammatinharjoittajien raportoimaa. Pelkästään muistikykyyn viritetty työkalu tuottaa liikaa melua tuotantokäyttöön.
Vuoden 2024 DICOM-tutkimus osoitti, että score_threshold-arvon nostaminen 0,7:ään jätti silti vääriä hälytyksiä 38:aan 39 lääketieteellisestä kuvasta. Kynnys, joka poistaa melun yhdestä asiakirjatyypistä, luo puuttumisia toisessa.
Tämä ei ole pelkästään Presidio-ongelma. Mikä tahansa kiinteä kynnys pakottaa vaihtokauppaan. Korkea kynnys vähentää melua mutta lisää ohituksia. Matala kynnys parantaa muistikykyä mutta kasvattaa hälytysmäärää.
Kontekstitietoinen pisteytys
Korjaus on kontekstitietoinen luottamuspisteytys. Sen sijaan, että pisteytys perustuu pelkästään kaavaosumaan, järjestelmä nostaa luottamusta, kun kontekstisanoja esiintyy osuman lähellä. Se myös laskee pisteitä, kun konteksti puuttuu.
TFN-tunnistuksessa: sanat kuten "tax file number", "TFN" tai "Australian tax" numeron lähellä nostavat sen pisteitä. Numero, joka läpäisee tarkistussumman mutta jolla ei ole läheisiä kontekstisanoja, saa pisteet alle tarkistuskynnyksen. Turha hälytys estetään.
Monikieliselle melulle: maakohtaisiin entiteettityyppeihin sidotut tunnistimet voidaan rajata vastaavan kielen asiakirjoihin. TFN-tunnistin, joka on rajattu englanninkieliseen ja australianenglantilaiseen tekstiin, poistaa melun. Sen ajaminen saksankielisessä sisällössä ilman rajausta on ongelman lähde.
Hybridijärjestelmän kolmas kerros on transformer-malli. Se lukee täyden konteksti-ikkunan jokaisen ehdokkaan ympäriltä. Se erottaa "John Smith, Patient ID 12345" tuotekoodista, joka vastaa nimikaavaa. Konteksti ratkaisee moniselitteisyyden, johon regex ja tarkistussummat eivät pysty.
Katso, miten kolmikerroksinen tunnistusmoottori käsittelee tarkkuutta suuressa mittakaavassa. Monikielinen PII-tunnistusopas kattaa, miten monikielinen melu vaikuttaa GDPR-vaatimustenmukaisuuteen.
Käytännön toimenpiteet
Ennen minkään PII-työkalun käyttöönottoa, mittaa sen tarkkuus — ei pelkästään muistikykyä.
Aja työkalu asiakirjasarjaan, jossa on tunnettua PII:tä ja tunnettua ei-PII:tä. Laske hälytykset molemmissa ryhmissä. Laske true_positives / (true_positives + false_positives). Tämä luku paljastaa tarkistusrasitteen ennen kuin sitoudut käyttöönottoon.
Jo Presidiota käyttäville tiimeille pisteiden jakauma-analyysi on nopea polku. Vie otos tunnistuksista luottamuspisteineen. Laske, kuinka moni saa alle 0,6, 0,7 ja 0,8 pistettä. Suuri osuus korkean pistemäärän hälytyksiä puhtaassa tekstissä viittaa kontekstiaukkoon, ei kynnysongelmaan. Turvallisuusvaatimustenmukaisuusyhteenveto selittää, miten tämä dokumentoidaan DPIA:ssa.
Lähteet
- Microsoft Presidio GitHub -keskustelu #1071: järjestelmälliset väärät positiiviset.
- Microsoft Presidio GitHub -ongelma #999: Saksan kielen väärät positiiviset kaavat.
- Alvaro ym. (2024): Presidion tarkkuus sekakielisissä yritysaineistoissa.
- DICOM-pistemääräkynnysanalyysi — Microsoft Presidio -yhteisö.