anonym.legal
Nazaj na blogTehnično

Problem 22,7-odstotne Natančnosti Presidio...

Primerjava iz 2024 je ugotovila, da Presidio-jev prepoznavalnik osebnih imen dosega 22,7 % natančnosti v poslovnih dokumentih – kar pomeni...

April 21, 20267 min branja
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Problem 22,7-odstotne Natančnosti Presidio: Zakaj Napačne Pozitivne Rezultate Uničujejo Vaše Rezultate Anonimizacije

Napačne pozitivne rezultate pri zaznavanju osebnih podatkov niso manjša nadloga. Kadar je 77,3 % tega, kar tvoje orodje označuje kot "osebna imena", v resnici ni osebnih imen, ne varčuješ zasebnosti – uničuješ podatke.

Studija primerjave iz 2024 modela Microsoft Presidio default NER (prepoznavanje poimenovanih entitet) je ocenjevala natančnost v kontekstih poslovnih dokumentov: finančna poročila, ustreznost odjemalcev, dokumentacija o izdelkih in vstopnice za podporo. Rezultat: 22,7 % natančnosti pri zaznavanju osebnih imen.

To pomeni, da je od 100 detektiranih rezultatov, označenih kot osebna imena:

  • 23 je res osebna imena (pravilno zaznana)
  • 77 je napačnih pozitivnih rezultatov (imena proizvodov, imena podjetij, imena krajev, omembe blagovnih znamk)

Zakaj Se to Zgodi

Presidia-jev prepoznavalnik osebnih imen default uporablja spaCy model en_core_web_lg za NER. Ta model je bil naučen primarno na besedilih novic – kjer so večina lastnih imen res ljudje, organizacije ali kraji, ki jih članki novičarjev obravnavajo.

Poslovni dokumenti so drugačni:

Imena proizvodov, ki izgleda kot osebna imena:

  • "Pošiljka Apple iPhone 15 Pro..." → označeno kot OSEBA
  • "Samsung Galaxy Tab" → označeno kot OSEBA
  • "Cisco Meraki uvajanje" → označeno kot OSEBA

Imena podjetij s strukturo osebnega imena:

  • "Četrtletni rezultati Johnson Controls" → "Johnson" označeno kot OSEBA
  • "Portfolio Goldman Sachs" → "Goldman" označeno kot OSEBA
  • "Teza naložbe BlackRock" → označeno kot OSEBA

Imena mest:

  • "Poročilo o lokaciji Washington State" → "Washington" označeno kot OSEBA
  • "Razdelka "Chicago Market" v dokumentaciji" → "Chicago" označeno kot OSEBA
  • "Jackson Hole ekonomski simpozij" → "Jackson" označeno kot OSEBA

Kdaj je prvi izvlaček dokumenta napočil, je najavi 77,3 % napak na strani. Če ima anonimizacija cilj varovati zasebnost, zato je ključna pravilnost zaznave – ne količina označenega vsebine.

Pristopi k Izboljšanju Natančnosti

Hibridni sistemi zaznave kombinirajo več tehnik:

Kontekst-zavedni filtri: Preverite, ali se osebno ime pojavi v kontekstu podjetja ali mesta. "Johnson Controls" je ime podjetja. Samo beseda "Johnson" v opisu osebe je osebno ime.

Slovarji podjetij: Vzdrževani seznami znanih imen podjetij, nazivov, imena izmenjav in blagovnih znamk zmanjšajo preklicivanje imena podjetja kot osebno ime.

Dostopne nastavitve NER: Presidio omogoča prilagoditev nastave modela NER za specifične domene. Poslovni dokumenti zahtevajo prilagoditve, ki niso privzete.

Kombinira się s čitanjem: Če je "Goldman" zaznano kot oseba, preglejte naslednji besedi – "Sachs" ali "& Co" kažeta, da je to podjetje, ne oseba.

Brez teh pristopov je privzeta Presidio zaznava 22,7 % natančna na poslovnih dokumentih – kar pomeni, da je bolj kot ne, je označeno napačno. Za resne zahteve za anonimizacijo je to nesprejemljivo.

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.