Posodobljeno za leto 2026
Problem natancnosti 22,7%
Studija iz leta 2024 je testirala Microsoft Presidio na poslovnih datotekah. Presidio je odprtokodno orodje za PII. Pravne ekipe in zdravstvene organizacije ga siroko uporabljajo.
Studija je merila, kako pogosto je Presidio imel prav. Koliko od vseh elementov, ki jih je oznacil kot osebna imena, je bilo dejansko osebnih imen?
Odgovor je bil 22,7%. Priblizno 77 od vsakih 100 oznak je bilo napacnih. Studija je stela 13.536 laznih oznak v 4.434 vzorcnih datotekah.
Napake niso bile nakljucne. Sledile so jasnim vzorcem:
- Zaimki oznaceni kot osebe ("I" na zacetku stavka)
- Oznake plovil oznacene kot osebe ("ASL Scorpio")
- Oznake podjetij oznacene kot osebe ("Deloitte & Touche")
- Izrazi za drzave oznaceni kot osebe ("Argentina", "Singapur")
To niso redki robni primeri. Pojavijo se vsakic, ko se splosni model NLP sooce s domensko specificnim besedilom. Model ni bil zgrajen za njihovo razlikovanje.
Kaj stanejo lazne oznake
V pravnem in zdravstvenem delu vsaka oznaka zahteva odziv. Ekipe se soocajo s tremi moznostmi. Vse tri imajo realne strosek.
Moznost 1: Cloves preveril vsako oznako. Cas odvetnikov in strokovnjakov stane 200 do 800 evrov na uro. Pri natancnosti 22,7% je obseg ogromen. To ni izvedljivo pri vecjih obsegih. Glejte Avtomatizacija PII e-odkritja in zmanjsanje stroskov pravnega pregleda za to, kako stroskimi pregleda rastejo z obsegom.
Moznost 2: Preskocite pregled in zaupajte izhodu. To je prav tako tvegano. Ko 77% "redaktiranih" elementov ni obcutljivih, ustvarite pravno tveganje. Sodisca so odvetniki zaracunala globe za prekomerno redakcijo. Glejte Sankcije e-odkritja za prekomerno redakcijo za dokumentirane primere.
Moznost 3: Dvignite mejno vrednost ocene. Presidio omogoca uporabnikom nastavitev score_threshold za odstranjevanje sibkih oznak. Studija DICOM iz leta 2024 je to testirala pri 0,7 - dokaj visoki meji. Rezultat: 38 od 39 slik DICOM je se vedno imelo lazne oznake. Mejne vrednosti pomagajo. Ne odpravijo korenskega vzroka.
Zakaj splosni NLP tezi pri tem
Vrzel Presidio izvira iz neujemanja med podatki za usposabljanje in resnicno uporabo.
Pravne datoteke so polne izrazov z velikimi tiskanimi crkami. Imena primerov, naslovi zakonov in kode razstav so splosni modeli videti kot osebni podatki. Jih oznacijo. Vecina ni osebnih podatkov.
Zdravstvene datoteke dodajo imena zdravil, kode naprav in klinicne krajsave. "Pt." pomeni Pacient. "Dr." pomeni Doktor. Te motijo zaznavanje entitet na nacine, ki jih je tezko napovedati.
Financne datoteke imajo kode izdelkov, nize entitet in ID-je racunov, ki si delijo vzorce povrsine z osebnimi zapisi.
Fino nastavljanje modela na domenskih podatkih pomaga. Toda za gradnjo in vzdrzevanje potrebuje cas in trud.
Kako hibridno zaznavanje to popravi
Problem laznih oznak ima jasno resitev. Razdelite delo po tipu podatkov.
Vzorcna pravila za strukturirane podatke. Stevilke socialne varnosti, telefonske stevilke, e-postni naslovi in formati identifikatorjev sledijo fiksnim pravilom. Niz bodisi ustreza vzorcu in prestane preskus kontrolne stevke, bodisi ne. Nic laznih oznak za veljavne nabore pravil.
Jezikovni modeli za prosto besedilo. Imena in priimki, oznake podjetij in lokacije v prozi nimajo toge strukture. NLP jih najde, ko pravila ne morejo. Ocene zaupanja in kontekstualni pregledi zmanjsajo stopnjo laznih oznak.
Nastavitve ocen po tipu za natancen nadzor. Pravne ekipe, ki si ne morejo privosciti tveganja prekomerne redakcije, nastavijo visoke mejne vrednosti za nejasna ujemanja. Raziskovalne ekipe, ki potrebujejo visok priklic, nastavijo nizje. Glejte Binarno zaznavanje PII in ocenjevanje zaupanja za skladnost za to, kako nivoji ocen delujejo v praksi.
Rezultat je veliko manj napak kot privzete nastavitve Presidio. Priklic ostane mocen tam, kjer bi sama pravila prevec prezrla.
Za pravne in zdravstvene ekipe kljucno vprasanje ni, ali lazne oznake obstajajo. V sistemih NLP vedno obstajajo. Vprasanje je, ali orodje omogoca nastavljanje, merjenje in dokumentiranje tega kompromisa.