2026rako eguneratua
%22,7ko Zehaztasun Arazoa
2024ko ikerketa batek Microsoft Presidio enpresa-fitxategietan probatu zuen. Presidio PII iturri irekiko tresna bat da. Lege-taldeek eta osasun-taldeak zabalki erabiltzen dute.
Ikerketak neurtu zuen Presidio zenbat aldiz zen zuzena. Pertsona-izen gisa markatu zituen elementu guztietatik, zenbat ziren benetako pertsona-izenak?
Erantzuna %22,7 zen. Markatutako 100 elementutik 77 inguru oker zeuden. Ikerketa 4.434 lagin-fitxategitan 13.536 marka faltsu zenbatu zituen.
Akatsak ez ziren ausazkoak. Eredu argiak jarraitzen zituzten:
- Izenordainak pertsona gisa markatuta ("Ni" esaldi hasieran)
- Ontzi-etiketak pertsona gisa markatuta ("ASL Scorpio")
- Enpresa-etiketak pertsona gisa markatuta ("Deloitte & Touche")
- Herrialde-terminoak pertsona gisa markatuta ("Argentina", "Singapore")
Hauetako bat ere ez da ertz-kasu arraroa. Agertzen dira NLP modelo orokor bat domeinu-espezifiko testua aurkitzen duen bakoitzean. Modeloa ez zen haiek bereizteko eraikita.
Marka Faltsuek Zer Kostatzen Duten
Lege eta osasun lanetan, marka bakoitzak erantzuna behar du. Taldeek hiru aukera dituzte. Hiru guztiek kostu errealak dituzte.
1. Aukera: Gizakiak marka guztiak egiaztatu. Abokatu eta aditu denborak 200 eta 800 euro artean kostatzen du orduko. %22,7ko zehaztasunarekin, bolumena izugarria da. Eskalan ez da bideragarria. Ikus eDiscovery PII Automatizazioa eta Lege Berrikuspena Kostu Murrizketa berrikuspena kostuak bolumenarekin nola hazten diren ikusteko.
2. Aukera: Berrikuspena saihestu eta irteera fidatu. Hori ere arriskutsua da. "Berredaktatutako" elementuen %77 sentikorra ez denean, arrisku legala sortzen duzu. Auzitegiek abokatuei isuna jarri diete gehiegizko berredazketa dela eta. Ikus eDiscovery Gehiegizko Berredakzio Zigorrak dokumentatutako kasu ikusteko.
3. Aukera: Puntuaketa atala igotzea. Presidio-k erabiltzaileei score_threshold ezartzeko aukera ematen die marka ahulak kentzeko. 2024ko DICOM ikerketa batek hori 0,7n probatu zuen - barra nahiko altua. Emaitza: 39 DICOM irudietatik 38tan marka faltsuak zeuden. Atalaseak laguntzen dute. Ez dute erro-kausa konpontzen.
Zergatik NLP Orokorrak Hemen Arazoak Ditu
Presidio-ren hutsunea trebaketako datuak eta benetako erabileraren arteko desadostasun batetik dator.
Lege-fitxategiak letra larriz idatzitako termino askoz beteta daude. Kasu-izenak, lege-tituluak eta erakusketa-kodeak datu pertsonalak dirudite modelo orokor baten aurrean. Markatzen ditu. Gehienak ez dira datu pertsonalak.
Osasun-fitxategiek sendagaien izenak, gailuen kodeak eta laburtzapen kliniko laburrak gehitzen dituzte. "Pt." Pazientea esan nahi du. "Dr." Medikua esan nahi du. Hauek entitate-detekzioa nahasten dute aurreikusten zaila den modutan.
Finantza-fitxategiek produktu-kodeak, entitate-kateak eta kontu-IDak dituzte datu pertsonalekin azalera-ereduak partekatzen dituztenak.
Modelo bat domeinu-datuetan hobetzea laguntzen du. Baina eraikitzea eta eguneratuta mantentzea denbora eta esfortzua eskatzen du.
Detekzio Hibridoak Nola Konpontzen Duen Hau
Marka faltsuaren arazoa konponbide argia du. Lan mota arabera banatu.
Datu egituraturako patroi-arauak. Gizarte segurantza-zenbakiak, telefono-zenbakiak, helbide elektronikoak eta ID formatuak arau finkoak jarraitzen dituzte. Kate batek eredua bete eta egiaztapen-digitu proba gaindituko du, edo ez du. Zero marka faltsu arau-multzo baliozkoentzat.
Hizkuntza-modeloak testu libre. Lehen eta azken izenak, enpresa-etiketak eta prosako kokapenak egitura zurrunik ez dute. NLPak aurkitzen ditu arauek ezin dituztenean. Konfiantza-puntuaketek eta testuinguru-egiaztapenek marka faltsuaren tasa murrizten dute.
Mota bakoitzeko puntuaketa-ezarpenak kontrol finerako. Gehiegizko berredakzio-arriskua hartu ezin duten lege-taldeek atalase altuak ezartzen dituzte bat-etorze lausoentzat. Aipamen altua behar duten ikerketa-taldeek baxuagoak ezartzen dituzte. Ikus Bitar PII Detekzioa eta Konfiantza-Puntuaketa Betebeharrerako puntuaketa-mailek praktikan nola funtzionatzen duten.
Emaitza Presidio lehenetsitakoak baino akats askoz gutxiago da. Aipamena indartsu geratzen da arauek bakarrik gehiegi galduko luketen tokian.
Lege eta osasun-taldeentzat, gako-galdera ez da marka faltsuak existitzen ote diren. NLP sistemetan beti existitzen dira. Galdera da tresnak konpromisoa ezartzeko, neurtzeko eta dokumentatzeko aukera ematen dien.