Oppdatert for 2026
22,7 %-presisjonsproblemet
En studie fra 2024 testet Microsoft Presidio pa forretningsfiler. Presidio er et apent kildekode-PII-verktoay. Juridiske team og helsegrupper bruker det i stor utstrekning.
Studien malte hvor ofte Presidio hadde rett. Av alle elementene det flagget som personnavn, hvor mange var faktisk personnavn?
Svaret var 22,7 %. Omtrent 77 av 100 flagg var feil. Studien telte 13 536 falske flagg pa tvers av 4 434 eksempelfiler.
Feilene var ikke tilfeldige. De folgte klare monster:
- Pronomen flagget som mennesker ("I" i begynnelsen av en setning)
- Skipsbetegnelser flagget som mennesker ("ASL Scorpio")
- Selskapsbetegnelser flagget som mennesker ("Deloitte & Touche")
- Landsbetegnelser flagget som mennesker ("Argentina", "Singapore")
Ingen av disse er sjeldne kanttilfeller. De dukker opp nar en generell NLP-modell moter domenespesifikk tekst. Modellen ble ikke bygd for a skille dem.
Hva falske flagg koster
I juridisk og helsearbeid krever hvert flagg et svar. Team har tre alternativer. Alle tre har reelle kostnader.
Alternativ 1: Et menneske sjekker hvert flagg. Advokat- og eksperttid koster 200 til 800 dollar per time. Med 22,7 % noayaktighet er volumet enormt. Dette er ikke gjennomforbart i stor skala. Se eDiscovery PII-automatisering og reduksjon av juridiske gjennomgangskostnader for hvordan gjennomgangskostnader vokser med volum.
Alternativ 2: Hopp over gjennomgang og stol pa utdataene. Dette er ogsa risikabelt. Nar 77 % av "sladdede" elementer ikke er sensitive, skaper du juridisk risiko. Domstoler har botetlagt advokater for oversladding. Se eDiscovery-oversladdesanksjoner for dokumenterte tilfeller.
Alternativ 3: Hev score-terskelen. Presidio lar brukere sette en score_threshold for a fjerne svake flagg. En DICOM-studie fra 2024 testet dette ved 0,7 - en ganske hoy lista. Resultatet: 38 av 39 DICOM-bilder hadde fortsatt falske flagg. Terskler hjelper. De fikser ikke rotarsaken.
Hvorfor generell NLP sliter her
Presidio-gapet stammer fra et misforhold mellom treningsdata og virkelig bruk.
Juridiske filer er fulle av ord med store bokstaver. Saksnavn, lovtitler og utstillingskoder ser alle ut som persondata for en generell modell. Den flagget dem. De fleste er ikke persondata.
Helsefiler legger til legemiddelnavn, enhetskoder og kliniske forkortelser. "Pt." betyr pasient. "Dr." betyr doktor. Disse snubler opp entitetsdeteksjon pa mater som er vanskelige a forutsi.
Finansfiler har produktkoder, entitetsstrengen og konto-ID-er som deler overflatemonster med personlige poster.
Finjustering av en modell pa domenedata hjelper. Men det tar tid og innsats a bygge og holde oppdatert.
Hvordan hybrid deteksjon fikser dette
Problemet med falske flagg har en klar losning. Del arbeidet etter datatype.
Monsteregler for strukturerte data. Personnumre, telefonnumre, e-postadresser og ID-formater folger faste regler. En streng passer enten monsteret og bestater et kontrollsiffertest, eller den gjor det ikke. Null falske flagg for gyldige regeloppsett.
Sprakmodeller for fritekst. For- og etternavn, selskapsbetegnelser og steder i prosa mangler rigid struktur. NLP finner dem nar regler ikke kan. Konfidensscorer og kontekstkontroller reduserer falsk-positiv-raten.
Per-type score-innstillinger for fin kontroll. Juridiske team som ikke kan riskere oversladding setter hoye terskler for uskarpe treff. Forskerteam som trenger hoy recall setter lavere. Se Binar PII-deteksjon og konfidensscore for samsvar for hvordan score-niva fungerer i praksis.
Resultatet er langt farre feil enn Presidio-standardene. Recall forblir sterk der regler alene ville gatt glipp av for mye.
For juridiske og helseteam er nokkelsporsmålet ikke om falske flagg eksisterer. De gjor det alltid i NLP-systemer. Sporsmålet er om verktoayet lar deg sette, male og dokumentere avveiningen.