Presidionen %22,7ko Zehaztasun-Arazoa: Zergatik Faltsuki Positiboak Suntsitzen dituzte Anonimizazio Emaitzak
Faltsuki positiboak PII detektatzean ez dute kalte txikia. %77,3 "nortasun-izenen" gisa adierazten dituena ez direnean nortasun-izenak, ez zaude pribatutasuna babestera — suntsitzen ari zaude datua.
2024ko orientazio ikasketan Microsoft Presidionen lehenetsiriko NER-aren (Named Entity Recognition) zehaztasuna ebaluatu zen negozio-dokumentu-ingurunean: finantza-txostenak, bezero-harremanetan dituzten gutunak, produktuaren dokumentazioa eta laguntza-txartela. Emaitza: %22,7ko zehaztasuna nortasun-izenen detektatzean.
Hau esan nahi du 100 detektatzea nortasun-izenen gisa adierazita:
- 23 dira nortasun-izenen egiak (egiantz detektaturik)
- 77 dira faltsuki positiboak (produktuaren izenak, enpresko izenak, lekuaren izenak, marka-omendezia)
Zergatik Gertatzen den Hau
Presidionen lehenetsiriko nortasun-izenen atzemataileak erabiltzen du spaCy en_core_web_lg modelo NER-arentzat. Modelok entrenaturik dago etxean testua — non gehienak izena eta eguna dira jendea, erakundeak edo lekuak albiste-artikuluak argudiatzeko.
Negozio-dokumentuak besteak direla:
Nortasun-izenen itxura duten produktuaren izenak:
- "Apple iPhone 15 Pro biltegi-agiriak..." → adierazta duten PERSON gisa
- "Samsung Galaxy Tab" → adierazta duten PERSON gisa
- "Cisco Meraki despliegua" → adierazta duten PERSON gisa
Enpresko izenak nortasun-izenaren egiturarekin:
- "Johnson Controls urteko emaitzak" → "Johnson" adierazta duten PERSON gisa
- "Goldman Sachs kartera" → "Goldman" adierazta duten PERSON gisa
- "BlackRock inbertsio tesia" → adierazta duten PERSON gisa
**Pl...