Problem 22,7-odstotne Natančnosti Presidio: Zakaj Napačne Pozitivne Rezultate Uničujejo Vaše Rezultate Anonimizacije
Napačne pozitivne rezultate pri zaznavanju osebnih podatkov niso manjša nadloga. Kadar je 77,3 % tega, kar tvoje orodje označuje kot "osebna imena", v resnici ni osebnih imen, ne varčuješ zasebnosti – uničuješ podatke.
Studija primerjave iz 2024 modela Microsoft Presidio default NER (prepoznavanje poimenovanih entitet) je ocenjevala natančnost v kontekstih poslovnih dokumentov: finančna poročila, ustreznost odjemalcev, dokumentacija o izdelkih in vstopnice za podporo. Rezultat: 22,7 % natančnosti pri zaznavanju osebnih imen.
To pomeni, da je od 100 detektiranih rezultatov, označenih kot osebna imena:
- 23 je res osebna imena (pravilno zaznana)
- 77 je napačnih pozitivnih rezultatov (imena proizvodov, imena podjetij, imena krajev, omembe blagovnih znamk)
Zakaj Se to Zgodi
Presidia-jev prepoznavalnik osebnih imen default uporablja spaCy model en_core_web_lg za NER. Ta model je bil naučen primarno na besedilih novic – kjer so večina lastnih imen res ljudje, organizacije ali kraji, ki jih članki novičarjev obravnavajo.
Poslovni dokumenti so drugačni:
Imena proizvodov, ki izgleda kot osebna imena:
- "Pošiljka Apple iPhone 15 Pro..." → označeno kot OSEBA
- "Samsung Galaxy Tab" → označeno kot OSEBA
- "Cisco Meraki uvajanje" → označeno kot OSEBA
Imena podjetij s strukturo osebnega imena:
- "Četrtletni rezultati Johnson Controls" → "Johnson" označeno kot OSEBA
- "Portfolio Goldman Sachs" → "Goldman" označeno kot OSEBA
- "Teza naložbe BlackRock" → označeno kot OSEBA
Imena mest:
- "Poročilo o lokaciji Washington State" → "Washington" označeno kot OSEBA
- "Razdelka "Chicago Market" v dokumentaciji" → "Chicago" označeno kot OSEBA
- "Jackson Hole ekonomski simpozij" → "Jackson" označeno kot OSEBA
Kdaj je prvi izvlaček dokumenta napočil, je najavi 77,3 % napak na strani. Če ima anonimizacija cilj varovati zasebnost, zato je ključna pravilnost zaznave – ne količina označenega vsebine.
Pristopi k Izboljšanju Natančnosti
Hibridni sistemi zaznave kombinirajo več tehnik:
Kontekst-zavedni filtri: Preverite, ali se osebno ime pojavi v kontekstu podjetja ali mesta. "Johnson Controls" je ime podjetja. Samo beseda "Johnson" v opisu osebe je osebno ime.
Slovarji podjetij: Vzdrževani seznami znanih imen podjetij, nazivov, imena izmenjav in blagovnih znamk zmanjšajo preklicivanje imena podjetja kot osebno ime.
Dostopne nastavitve NER: Presidio omogoča prilagoditev nastave modela NER za specifične domene. Poslovni dokumenti zahtevajo prilagoditve, ki niso privzete.
Kombinira się s čitanjem: Če je "Goldman" zaznano kot oseba, preglejte naslednji besedi – "Sachs" ali "& Co" kažeta, da je to podjetje, ne oseba.
Brez teh pristopov je privzeta Presidio zaznava 22,7 % natančna na poslovnih dokumentih – kar pomeni, da je bolj kot ne, je označeno napačno. Za resne zahteve za anonimizacijo je to nesprejemljivo.