Takaisin BlogiinTekninen

Väärien positiivisten ongelma: Miksi puhdas...

Vuoden 2024 vertailututkimus havaitsi, että Presidio tuotti 13 536 väärää positiivista nimen havaitsemista 4 434 näytteestä...

March 23, 20268 min lukuaika
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

22,7 % tarkkuusongelma tuotannossa

Vuoden 2024 vertailututkimus Microsoft Presidiosta - avoimen lähdekoodin PII-havaitsemismallista, jota käytetään oikeusteknologiassa, terveydenhuollossa ja yritysten tietosuojaratkaisuissa - havaitsi 22,7 % tarkkuuden henkilöiden nimien havaitsemisessa liiketoimintasiakirjakonteksteissa.

Tarkkuus mittaa positiivisten tunnistusten tarkkuutta: mikä prosenttiosuus työkalu merkitsee "henkilöiden nimiksi" on todellisia henkilöiden nimiä. 22,7 %:n tarkkuudella noin 77 jokaista 100:sta merkitystä henkilöiden nimestä on vääriä positiivisia.

Vertailu dokumentoi 13 536 väärää positiivista nimen havaitsemista 4 434 asiakirjanäytteessä. Väärät positiiviset sisälsivät:

  • Pronominit, jotka on merkitty henkilöiden nimiksi ("I" lauseiden alussa)
  • Alusten nimet, jotka on merkitty henkilöiden nimiksi ("ASL Scorpio")
  • Organisaatioiden nimet, jotka on merkitty henkilöiden nimiksi ("Deloitte & Touche")
  • Maat, jotka on merkitty henkilöiden nimiksi ("Argentiina," "Singapore")

Nämä eivät ole äärimmäisiä tapauksia. Ne ovat systeemisiä malleja, jotka ilmenevät, kun yleiskäyttöistä NLP-mallia, joka on koulutettu sekoitetuilla aineistoilla, sovelletaan alakohtaisiin asiakirjatyyppiin, joissa erisnimet esiintyvät konteksteissa, joita malli ei ole koulutettu erottamaan.

Väärien positiivisten kustannusrakenne suuressa mittakaavassa

Oikeudellisissa ja terveydenhuollon ympäristöissä väärät positiiviset eivät ole ilmaisia. Jokainen merkitty kohde vaatii käsittelyn: joko ihmisen tarkistuksen vahvistamaan tai hylkäämään merkin, tai automaattisen käsittelyn, joka jättää väärän positiivisen korjaamatta.

Vaihtoehto 1: Jokaisen merkitty kohteen ihmisen tarkistus. Asianajajan tai asiantuntijan aikakustannuksilla, jotka vaihtelevat 200–800 dollarin välillä tunnissa, väärien positiivisten tarkistaminen 22,7 % tarkkuusjärjestelmästä on taloudellisesti mahdotonta suuressa mittakaavassa. 10 000 asiakirjan tuotannossa, jossa on 100 merkittyä kohdetta asiakirjaa kohti 22,7 % tarkkuudella, noin 77 300 kohdetta vaatii ihmisen tarkistuksen. 5 minuutin tarkistusajalla kohdetta kohti 300 dollarin tuntihinnalla se tarkoittaa 6 442 tuntia tarkistusaikaa - noin 1,9 miljoonaa dollaria.

Vaihtoehto 2: Ohita manuaalinen tarkistus ja hyväksy automaattinen käsittely. Tuloksena on tuotanto, jossa 77 % "punatuista" kohteista ei ollut oikeasti arkaluonteisia - luoden liiallista punastusta (paljastettavaa sisältöä pidätetään ilman perusteita), tuhoamalla asiakirjan hyödyllisyyden ja mahdollisesti laukaisten seuraamuksia.

Vaihtoehto 3: Pistetasot. Presidio mahdollistaa score_threshold-konfiguraation, joka vähentää vääriä positiivisia merkitsemällä vain kohteet, jotka ylittävät luottamustason. Vuoden 2024 vertailututkimus DICOM-lääketieteellisten kuvantamisasiakirjoista havaitsi, että jopa score_threshold=0.7 - suhteellisen aggressiivinen tarkkuussuodatin - 38 39:stä DICOM-kuvasta sisälsi silti vääriä positiivisia entiteettejä. Pistetasot vähentävät, mutta eivät eliminoi vääriä positiivisia ongelmaa puhtaassa ML-havainnoinnissa.

Miksi puhdas ML epäonnistuu alakohtaisissa asiakirjoissa

Presidion väärien positiivisten malli heijastaa yleiskäyttöisten NLP-mallien perustavanlaatuista rajoitusta alakohtaisissa konteksteissa:

Oikeudelliset asiakirjat sisältävät erikoistuneita erisnimiä - oikeusjuttujen nimiä, lain nimiä, näyttömerkintöjä - jotka jakavat pinnallisia malleja henkilöiden nimien kanssa. Yleiseen tekstiin koulutettu malli oppii, että isolla alkukirjaimella kirjoitetut erisnimet ovat usein henkilöiden nimiä. Oikeudellinen asiakirja sisältää satoja isolla alkukirjaimella kirjoitettuja erisnimiä, jotka eivät ole henkilöiden nimiä.

Terveydenhuollon asiakirjat sisältävät lääkkeiden nimiä, laitteiden nimiä ja menettelykoodeja, jotka sisältävät kirjaintunnuksia, jotka muistuttavat nimen lyhenteitä. Kliininen teksti sisältää myös lyhenteitä ("Pt." Potilas, "Dr." Lääkäri), jotka vaikuttavat arvaamattomasti nimen havaitsemiseen.

Rahoitusasiakirjat sisältävät tuotteen nimiä, entiteettien nimiä ja tunnuskoodit, jotka jakavat malleja henkilökohtaisille tunnisteille.

Alakohtainen hienosäätö käsittelee näitä malleja, mutta vaatii merkittäviä investointeja hienosäätöaineistoihin ja jatkuvaa ylläpitoa asiakirjatyyppien kehittyessä.

Hybridirakenteen ratkaisu

Väärien positiivisten ongelma on rakenteellisesti ratkaistavissa hybridihavainnoinnin avulla, joka erottaa rakenteellisen tiedon (missä regex tarjoaa 100 % tarkkuuden) kontekstuaalisesta tiedosta (missä ML tarjoaa mallintunnistusta kalibroidulla luottamuksella).

Regex rakenteellisille tunnisteille: SSN:t, puhelinnumerot, sähköpostiosoitteet, luottokorttinumerot, kansalliset ID-muodot, pankkitilit. Nämä muodot ovat deterministisiä - merkkijono joko vastaa kaavaa ja läpäisee tarkistuslaskennan tai ei. Nolla vääriä positiivisia laillisissa toteutuksissa.

NLP kontekstuaalisille entiteeteille: Henkilöiden nimet, organisaatioiden nimet, sijainnit epästrukturissa teksteissä. NLP-mallit tarjoavat palautetta entiteeteille, joilla ei ole rakenteellisia malleja. Luottamuspisteytys ja kontekstisanojen vaatimukset vähentävät vääriä positiivisia.

Kynnysarvojen konfigurointi per entiteettityyppi: Asetettaessa 90 % luottamuskynnys henkilöiden nimille samalla kun käytetään regex-varmuutta (käytännössä 100 %) SSN:ille, mahdollistaa kalibroinnin alakohtaisille väärien positiivisten toleransseille. Oikeudelliset tiimit, jotka eivät voi sietää liiallista punastusta, asettavat korkeammat kynnykset; kliiniset tutkimustiimit, jotka maksimoivat anonymisoinnin palautteen, asettavat matalammat.

Tuloksena: dramaattisesti alhaisemmat väärien positiivisten määrät kuin Presidio-oletukset, samalla kun säilytetään palautteen, jota puhdas mallintunnistus ei voi saavuttaa. Oikeudelliset ja terveydenhuollon organisaatiot, jotka arvioivat automatisoituja punastusvälineitä, voivat hallita tarkkuuden ja palautteen välistä kauppaa - mutta vain työkalun kanssa, joka paljastaa sen konfiguroitavana parametrina eikä kiinteänä järjestelmäkäyttäytymisenä.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.