Opgedateer vir 2026
Die 22.7%-Presisieprobleem
'n 2024-studie het Microsoft Presidio op sakeers getoets. Presidio is 'n oopbron-PII-hulpmiddel. Regspanne en gesondheidsgroepe gebruik dit wyd.
Die studie het gemeet hoe dikwels Presidio korrek was. Van al die items wat dit as persoonname gemerk het, hoeveel was werklik persoonname?
Die antwoord was 22.7%. Ongeveer 77 uit elke 100 merke was verkeerd. Die studie het 13 536 vals merke oor 4 434 voorbeeldleers getel.
Die foute was nie toevallig nie. Hulle het duidelike patrone gevolg:
- Voornaamwoorde gemerk as mense ("I" aan die begin van 'n sin)
- Skeeplabels gemerk as mense ("ASL Scorpio")
- Maatskappylabels gemerk as mense ("Deloitte & Touche")
- Landterme gemerk as mense ("Argentina," "Singapore")
Geeen van hierdie is seldsame randgevalle nie. Hulle verskyn wanneer 'n algemene NLP-model domein-spesifieke teks teekom. Die model is nie gebou om hulle te onderskei nie.
Wat Vals Merke Kos
In regs- en gesondheidswerk benodig elke merk 'n reaksie. Spanne het drie opsies. Al drie het werklike kostes.
Opsie 1: 'n Mens kontroleer elke merk. Prokureur- en kundige-tyd loop van $200 tot $800 per uur. By 22.7% akkuraatheid is die volume groot. Dit is nie lewensvatbaar op skaal nie. Sien eDiscovery PII-Outomatisering en Regshersiening-Kostebesnoeiing vir hoe hersiening-kostes met volume groei.
Opsie 2: Slaan hersiening oor en vertrou die uitvoer. Dit is ook riskant. Wanneer 77% van "geredigeerde" items nie sensitief is nie, skep u regsrisiko. Howe het prokureurs beboet vir oor-redigering. Sien eDiscovery Oor-Redigering-Sanksies vir gedokumenteerde gevalle.
Opsie 3: Verhoog die tellingdrempel. Presidio laat gebruikers toe om 'n `score_threshold` in te stel om swak merke te verwyder. 'n 2024 DICOM-studie het dit by 0.7 getoets -- 'n redelik hoe maatstaf. Die resultaat: 38 uit 39 DICOM-beelde het steeds vals merke gehad. Drempels help. Hulle los nie die worteloorsaak op nie.
Waarom Algemene NLP Hier Sukkel
Die Presidio-gaping kom van 'n wanpassing tussen opleidingsdata en werklike gebruik.
Regsleers is vol hoofletterterme. Saakname, wettitels en uitstel-kodes lyk almal soos persoonlike data vir 'n algemene model. Dit merk hulle. Die meeste is nie persoonlike data nie.
Gesondheidsleers voeg geneesmiddelname, toestelkodes en kliniese kortvorms by. "Pt." beteken Patient. "Dr." beteken Dokter. Hierdie struikel entiteitsopsporing op maniere wat moeilik is om te voorspel.
Finansiële leers het produk-kodes, entiteitsstringe en rekening-ID's wat oppervlakpatrone deel met persoonlike rekords.
Fyn-instelling van 'n model op domeindata help. Maar dit neem tyd en moeite om te bou en op datum te hou.
Hoe Hibriede Opsporing Dit Regmaak
Die valsmerk-probleem het 'n duidelike oplossing. Verdeel die werk per datatipe.
Patroonreels vir gestruktureerde data. Sosiale sekuriteitsnommers, telefoonnommers, e-posadresse en ID-formate volg vaste reels. 'n String pas die patroon en slaag 'n kontrolesyfer-toets, of nie. Nul vals merke vir geldige reelstelle.
Taalmodelle vir vry teks. Eerste en laaste name, maatskappylabels en liggings in prosa het nie vaste struktuur nie. NLP vind hulle wanneer reels nie kan nie. Vertrouenstellings en kontekskontrolles sny die valsmerk-koers.
Per-tipe tellinginstellings vir fyn beheer. Regspanne wat oor-redigering nie kan bekostig nie, stel hoe drempels vir fussy-passing in. Navorsingsgrepe wat hoe herroeping benodig, stel laer drempels. Sien Binere PII-Opsporing en Vertrouensgradering vir Nakoming vir hoe tellingvlakke in die praktyk werk.
Die resultaat is baie minder foute as Presidio-verstelwaardes. Herroeping bly sterk waar reels alleen te veel sou mis.
Vir regs- en gesondheidspanne is die sleutelvraag nie of vals merke bestaan nie. Dit bestaan altyd in NLP-stelsels. Die vraag is of die hulpmiddel u toelaat om die kompromis in te stel, te meet en te dokumenteer.