Itzuli BlogeraTeknikoa

Presidionen %22,7ko Zehaztasun-Arazoa...

2024ko orientazioan Presidionen nortasunaren atzemataileak %22,7ko zehaztasuna lortzen du negozio-dokumentuetan...

April 21, 20267 min irakurri
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidionen %22,7ko Zehaztasun-Arazoa: Zergatik Faltsuki Positiboak Suntsitzen dituzte Anonimizazio Emaitzak

Faltsuki positiboak PII detektatzean ez dute kalte txikia. %77,3 "nortasun-izenen" gisa adierazten dituena ez direnean nortasun-izenak, ez zaude pribatutasuna babestera — suntsitzen ari zaude datua.

2024ko orientazio ikasketan Microsoft Presidionen lehenetsiriko NER-aren (Named Entity Recognition) zehaztasuna ebaluatu zen negozio-dokumentu-ingurunean: finantza-txostenak, bezero-harremanetan dituzten gutunak, produktuaren dokumentazioa eta laguntza-txartela. Emaitza: %22,7ko zehaztasuna nortasun-izenen detektatzean.

Hau esan nahi du 100 detektatzea nortasun-izenen gisa adierazita:

  • 23 dira nortasun-izenen egiak (egiantz detektaturik)
  • 77 dira faltsuki positiboak (produktuaren izenak, enpresko izenak, lekuaren izenak, marka-omendezia)

Zergatik Gertatzen den Hau

Presidionen lehenetsiriko nortasun-izenen atzemataileak erabiltzen du spaCy en_core_web_lg modelo NER-arentzat. Modelok entrenaturik dago etxean testua — non gehienak izena eta eguna dira jendea, erakundeak edo lekuak albiste-artikuluak argudiatzeko.

Negozio-dokumentuak besteak direla:

Nortasun-izenen itxura duten produktuaren izenak:

  • "Apple iPhone 15 Pro biltegi-agiriak..." → adierazta duten PERSON gisa
  • "Samsung Galaxy Tab" → adierazta duten PERSON gisa
  • "Cisco Meraki despliegua" → adierazta duten PERSON gisa

Enpresko izenak nortasun-izenaren egiturarekin:

  • "Johnson Controls urteko emaitzak" → "Johnson" adierazta duten PERSON gisa
  • "Goldman Sachs kartera" → "Goldman" adierazta duten PERSON gisa
  • "BlackRock inbertsio tesia" → adierazta duten PERSON gisa

**Pl...

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.