Ažurirano za 2026.
Problem preciznosti od 22,7%
Istraživanje iz 2024. testiralo je Microsoft Presidio na poslovnim datotekama. Presidio je open-source alat za PII. Pravni timovi i zdravstvene organizacije ga naširoko koriste.
Istraživanje je mjerilo koliko često je Presidio bio u pravu. Od svih stavki koje je označio kao imena osoba, koliko je stvarno bila imena osoba?
Odgovor je bio 22,7%. Otprilike 77 od svake 100 oznaka bile su pogrešne. Istraživanje je prebrojalo 13 536 lažnih oznaka u 4 434 uzornih datoteka.
Greške nisu bile nasumične. Slijedile su jasne obrasce:
- Zamjenice označene kao osobe ("I" na početku rečenice)
- Oznake brodova označene kao osobe ("ASL Scorpio")
- Nazivi tvrtki označeni kao osobe ("Deloitte & Touche")
- Nazivi zemalja označeni kao osobe ("Argentina", "Singapore")
Nijedan od ovih nije rijedak rubni slučaj. Pojavljuju se svaki put kada se opći NLP model susretne s domenski specifičnim tekstom. Model nije izgrađen da ih razlikuje.
Što lažne oznake koštaju
U pravnom i zdravstvenom radu, svaka oznaka zahtijeva reakciju. Timovi se suočavaju s tri opcije. Sve tri imaju stvarne troškove.
Opcija 1: Čovjek provjerava svaku oznaku. Odvjetničko i stručno vrijeme košta 200 do 800 USD na sat. Pri točnosti od 22,7%, volumen je ogroman. Ovo nije izvedivo u velikom mjerilu. Pogledajte Automatizacija PII-a u e-otkrivanju i smanjenje troškova pravnog pregleda za to kako troškovi pregleda rastu s volumenom.
Opcija 2: Preskočite pregled i vjerujte izlazu. To je također rizično. Kada 77% "redaktiranih" stavki nije osjetljivo, stvarate pravni rizik. Sudovi su kaznili odvjetnike za prekomjernu redakciju. Pogledajte Sankcije e-otkrivanja za prekomjernu redakciju za dokumentirane slučajeve.
Opcija 3: Podignite prag ocjene. Presidio korisnicima omogućuje postavljanje score_threshold za odbacivanje slabih oznaka. Istraživanje DICOM iz 2024. testiralo je to na 0,7 — prilično visoka ljestvica. Rezultat: 38 od 39 DICOM slika i dalje imalo je lažne oznake. Pragovi pomažu. Ne rješavaju temeljni uzrok.
Zašto se opći NLP ovdje muči
Presidio jaz dolazi iz nesukladnosti između podataka za treniranje i stvarne upotrebe.
Pravne datoteke pune su pojmova s velikim slovima. Nazivi predmeta, naslovi zakona i kodovi izložaka svi izgledaju kao osobni podaci za opći model. Označava ih. Većina to nisu osobni podaci.
"Pt." znači Pacijent. "Dr." znači Doktor — zdravstvene datoteke dodaju nazive lijekova, šifre uređaja i kliničke kratice. Ovo ometa detekciju entiteta na načine koje je teško predvidjeti.
Financijske datoteke imaju šifre proizvoda, identifikacijske nizove entiteta i ID-ove računa koji dijele površne obrasce s osobnim zapisima.
Fino podešavanje modela na domenskim podacima pomaže. No potrebno je vrijeme i trud za izgradnju i održavanje ažuriranosti.
Kako hibridna detekcija to popravlja
Problemu s lažnim oznakama postoji jasno rješenje. Podijelite posao po vrsti podataka.
Pravila uzoraka za strukturirane podatke. Matični brojevi, telefonski brojevi, adrese e-pošte i formati ID-ova slijede fiksna pravila. Niz ili odgovara uzorku i prolazi test kontrolne znamenke, ili ne odgovara. Nula lažnih oznaka za valjane skupove pravila.
Jezični modeli za slobodan tekst. Imena i prezimena, nazivi tvrtki i lokacije u prozi nemaju krutu strukturu. NLP ih pronalazi kada pravila ne mogu. Ocjene pouzdanosti i provjere konteksta smanjuju stopu lažnih oznaka.
Postavke ocjena po vrsti za fino upravljanje. Pravni timovi koji ne mogu riskirati prekomjernu redakciju postavljaju visoke pragove za fuzzy podudaranja. Istraživački timovi kojima treba visoki opseg pokrivenosti postavljaju niže. Pogledajte Binarna detekcija PII-a i ocjenjivanje pouzdanosti za usklađenost za to kako razine ocjena funkcioniraju u praksi.
Rezultat je daleko manje grešaka od Presidio zadanih postavki. Opseg pokrivenosti ostaje jak tamo gdje bi pravila sama propuštala previše.
Za pravne i zdravstvene timove, ključno pitanje nije postoje li lažne oznake. One uvijek postoje u NLP sustavima. Pitanje je dopušta li alat postavljanje, mjerenje i dokumentiranje tog kompromisa.