Ina-update para sa 2026
Ang 22.7% na Problema sa Precision
Isang pag-aaral noong 2024 ang sumubok sa Microsoft Presidio sa mga business file. Ang Presidio ay isang open-source na tool sa PII. Malawak itong ginagamit ng mga legal team at health group.
Sinukat ng pag-aaral kung gaano kadalas tama ang Presidio. Sa lahat ng item na ni-flag nito bilang mga pangalan ng tao, ilan ang talagang mga pangalan ng tao?
Ang sagot ay 22.7%. Tungkol sa 77 sa bawat 100 flag ang mali. Binilang ng pag-aaral ang 13,536 na maling flag sa 4,434 na sample na file.
Ang mga pagkakamali ay hindi random. Sumunod sila sa malinaw na mga pattern:
- Mga pronoun na na-flag bilang tao ("I" sa simula ng pangungusap)
- Mga label ng barko na na-flag bilang tao ("ASL Scorpio")
- Mga label ng kumpanya na na-flag bilang tao ("Deloitte & Touche")
- Mga terminong bansa na na-flag bilang tao ("Argentina," "Singapore")
Wala sa mga ito ang bihirang edge case. Lumalabas ang mga ito kapag nakaharap ang isang pangkalahatang NLP model sa domain-specific na teksto. Hindi itinayo ang model para makilala ang pagkakaiba ng mga ito.
Ano ang Nagastos ng Mga Maling Flag
Sa legal at health na trabaho, ang bawat flag ay nangangailangan ng tugon. Nahaharap ang mga team sa tatlong pagpipilian. Ang lahat ng tatlo ay may tunay na gastos.
Pagpipilian 1: Susuriin ng tao ang bawat flag. Ang oras ng abogado at eksperto ay nagtatakbo ng $200 hanggang $800 bawat oras. Sa 22.7% na katumpakan, malaki ang dami. Hindi ito magagawa sa malaking sukat. Tingnan ang eDiscovery PII Automation and Legal Review Cost Reduction para sa kung paano lumalaki ang mga gastos sa review sa volume.
Pagpipilian 2: Laktawan ang review at pagkatiwalaan ang output. Peligroso rin ito. Kapag 77% ng mga "na-redact" na item ay hindi sensitibo, lumilikha kang legal na panganib. Pinarusahan ng mga korte ang mga abogado para sa over-redaction. Tingnan ang eDiscovery Over-Redaction Sanctions para sa mga dokumentadong kaso.
Pagpipilian 3: Itaas ang score threshold. Pinapayagan ng Presidio ang mga gumagamit na magtakda ng score_threshold para ibaba ang mga mahinang flag. Isang pag-aaral ng DICOM noong 2024 ang sumubok nito sa 0.7 - isang medyo mataas na bar. Ang resulta: 38 sa 39 na DICOM image ay mayroon pa ring mga maling flag. Nakatutulong ang mga threshold. Hindi nila inaayos ang ugat na sanhi.
Bakit Nahihirapan Dito ang Pangkalahatang NLP
Ang agwat ng Presidio ay nagmumula sa hindi pagtutugma sa pagitan ng data ng pagsasanay at tunay na paggamit.
Puno ng mga capital-letter na termino ang mga legal na file. Ang mga pangalan ng kaso, mga titulo ng batas, at mga code ng eksibisyon ay lahat ay mukhang personal na data para sa isang pangkalahatang modelo. Ni-ni-flag sila. Karamihan ay hindi personal na data.
Nagdaragdag ang mga file ng kalusugan ng mga pangalan ng gamot, mga code ng device, at mga klinikal na short form. Ang "Pt." ay nangangahulugang Pasyente. Ang "Dr." ay nangangahulugang Doktor. Ang mga ito ay nagdudulot ng entity detection sa mga paraan na mahirap hulaan.
Ang mga file sa finance ay may mga code ng produkto, mga string ng entity, at mga account ID na nagbabahagi ng mga pattern ng ibabaw sa mga personal na rekord.
Ang fine-tuning ng isang modelo sa data ng domain ay nakakatulong. Ngunit nangangailangan ito ng oras at pagsisikap para buuin at panatilihing napapanahon.
Paano Inaayos ng Hybrid Detection Ito
Ang problema ng maling flag ay may malinaw na solusyon. Hatiin ang trabaho ayon sa uri ng data.
Mga panuntunan ng pattern para sa nakastrukturang data. Ang mga social security number, numero ng telepono, email address, at mga format ng ID ay sumusunod sa mga naayos na panuntunan. Ang isang string ay alinman ay umaangkop sa pattern at pumapasa sa isang check digit test, o hindi. Zero na maling flag para sa mga valid na rule set.
Mga modelo ng wika para sa libreng teksto. Ang mga first at last name, mga label ng kumpanya, at mga lokasyon sa prosa ay kulang sa mahigpit na istruktura. Hinahanap sila ng NLP kapag hindi kaya ng mga panuntunan. Ang mga confidence score at mga tseke ng konteksto ay nagpapababa ng rate ng maling flag.
Mga setting ng score bawat uri para sa pinong kontrol. Ang mga legal team na hindi maaaring magsugal ng over-redaction ay nagtatakda ng mataas na threshold para sa mga fuzzy match. Ang mga research team na nangangailangan ng mataas na recall ay nagtatakda ng mas mababa. Tingnan ang Binary PII Detection and Confidence Scoring for Compliance para sa kung paano gumagana ang mga tier ng score sa praktika.
Ang resulta ay mas kaunting pagkakamali kaysa sa mga default ng Presidio. Nananatiling malakas ang recall kung saan ang mga panuntunan lamang ay mapalampas ng masyadong marami.
Para sa mga legal at health team, ang pangunahing tanong ay hindi kung umiiral ang mga maling flag. Palagi silang nasa mga sistema ng NLP. Ang tanong ay kung nagbibigay-daan ba ang tool sa inyo na itakda, sukatin, at idokumento ang tradeoff.