2026 के लिए अपडेट किया गया

22.7% परिशुद्धता समस्या

2024 के एक अध्ययन ने Microsoft Presidio का व्यावसायिक फाइलों पर परीक्षण किया। Presidio एक ओपन-सोर्स PII टूल है। कानूनी टीमें और स्वास्थ्य समूह इसका व्यापक उपयोग करते हैं।

अध्ययन ने मापा कि Presidio कितनी बार सही था। उसके द्वारा व्यक्ति नामों के रूप में फ्लैग किए गए सभी आइटमों में से, कितने वास्तव में व्यक्ति नाम थे?

उत्तर था 22.7%। प्रत्येक 100 फ्लैग में से लगभग 77 गलत थे। अध्ययन ने 4,434 नमूना फाइलों में 13,536 false flags गिने।

त्रुटियां यादृच्छिक नहीं थीं। वे स्पष्ट पैटर्न का पालन करती थीं:

सर्वनाम लोगों के रूप में फ्लैग हुए ("I" वाक्य की शुरुआत में)
जहाज लेबल लोगों के रूप में फ्लैग हुए ("ASL Scorpio")
कंपनी लेबल लोगों के रूप में फ्लैग हुए ("Deloitte & Touche")
देश शब्द लोगों के रूप में फ्लैग हुए ("Argentina," "Singapore")

ये दुर्लभ किनारे के मामले नहीं हैं। ये तब सामने आते हैं जब एक सामान्य NLP मॉडल डोमेन-विशिष्ट टेक्स्ट से मिलता है। मॉडल उन्हें अलग बताने के लिए नहीं बनाया गया था।

False Flags की क्या कीमत है

कानूनी और स्वास्थ्य कार्य में, हर फ्लैग को प्रतिक्रिया की आवश्यकता होती है। टीमों के पास तीन विकल्प हैं। तीनों की वास्तविक लागत है।

विकल्प 1: एक मानव प्रत्येक फ्लैग की जांच करे। वकील और विशेषज्ञ समय $200 से $800 प्रति घंटे पर चलता है। 22.7% सटीकता पर, वॉल्यूम विशाल है। यह बड़े पैमाने पर व्यवहार्य नहीं है। समीक्षा लागत वॉल्यूम के साथ कैसे बढ़ती है, इसके लिए eDiscovery PII Automation and Legal Review Cost Reduction देखें।

विकल्प 2: समीक्षा छोड़ें और आउटपुट पर भरोसा करें। यह भी जोखिम भरा है। जब "रिडैक्ट" किए गए 77% आइटम संवेदनशील नहीं हैं, तो आप कानूनी जोखिम बनाते हैं। अदालतों ने अत्यधिक-रिडैक्शन के लिए वकीलों को जुर्माना लगाया है। दस्तावेज़ीकृत मामलों के लिए eDiscovery Over-Redaction Sanctions देखें।

विकल्प 3: स्कोर थ्रेशोल्ड बढ़ाएं। Presidio उपयोगकर्ताओं को कमजोर फ्लैग छोड़ने के लिए score_threshold सेट करने देता है। 2024 DICOM अध्ययन ने 0.7 पर परीक्षण किया — काफी उच्च बार। परिणाम: 39 DICOM छवियों में से 38 में अभी भी false flags थे। थ्रेशोल्ड मदद करते हैं। वे मूल कारण ठीक नहीं करते।

सामान्य NLP यहां क्यों संघर्ष करता है

Presidio अंतराल प्रशिक्षण डेटा और वास्तविक-दुनिया उपयोग के बीच मेल न खाने से आता है।

कानूनी फाइलें बड़े अक्षरों वाले शब्दों से भरी हैं। केस नाम, कानून शीर्षक, और प्रदर्शनी कोड सभी एक सामान्य मॉडल को व्यक्तिगत डेटा जैसे दिखते हैं। यह उन्हें फ्लैग करता है। अधिकांश व्यक्तिगत डेटा नहीं हैं।

स्वास्थ्य फाइलें दवा नाम, डिवाइस कोड, और नैदानिक संक्षिप्त रूप जोड़ती हैं। "Pt." का मतलब Patient है। "Dr." का मतलब Doctor है। ये ऐसे तरीकों से एंटिटी डिटेक्शन को ट्रिप करते हैं जिनका अनुमान लगाना मुश्किल है।

वित्त फाइलों में उत्पाद कोड, एंटिटी स्ट्रिंग, और खाता ID हैं जो व्यक्तिगत रिकॉर्ड के साथ सतही पैटर्न साझा करते हैं।

डोमेन डेटा पर मॉडल को फाइन-ट्यून करना मदद करता है। लेकिन बनाने और अपडेट रखने में समय और प्रयास लगता है।

हाइब्रिड डिटेक्शन इसे कैसे ठीक करता है

False flag समस्या का एक स्पष्ट समाधान है। काम को डेटा प्रकार के अनुसार विभाजित करें।

संरचित डेटा के लिए पैटर्न नियम। Social security नंबर, फ़ोन नंबर, ईमेल पते, और ID फ़ॉर्मेट निश्चित नियमों का पालन करते हैं। एक स्ट्रिंग या तो पैटर्न फिट करती है और चेक डिजिट परीक्षण पास करती है, या नहीं। वैध नियम सेटों के लिए शून्य false flags।

फ्री टेक्स्ट के लिए भाषा मॉडल। गद्य में पहले और अंतिम नाम, कंपनी लेबल, और स्थानों में कठोर संरचना नहीं होती। NLP उन्हें तब ढूंढता है जब नियम नहीं ढूंढ सकते। विश्वास स्कोर और संदर्भ जांच false flag दर को कम करती है।

सटीक नियंत्रण के लिए प्रति-प्रकार स्कोर सेटिंग। कानूनी टीमें जो अत्यधिक-रिडैक्शन का जोखिम नहीं उठा सकतीं, fuzzy मैचों के लिए उच्च थ्रेशोल्ड सेट करती हैं। शोध टीमें जिन्हें उच्च रिकॉल की जरूरत है, कम सेट करती हैं। स्कोर टियर व्यवहार में कैसे काम करते हैं, इसके लिए बाइनरी PII डिटेक्शन और अनुपालन के लिए विश्वास स्कोरिंग देखें।

परिणाम Presidio डिफ़ॉल्ट से कहीं कम त्रुटियां है। रिकॉल वहां मजबूत रहता है जहां केवल नियम बहुत अधिक चूक जाते।

कानूनी और स्वास्थ्य टीमों के लिए, मुख्य प्रश्न यह नहीं है कि क्या false flags मौजूद हैं। NLP सिस्टम में वे हमेशा होते हैं। प्रश्न यह है कि क्या टूल आपको ट्रेडऑफ़ सेट, मापने, और दस्तावेज़ीकृत करने देता है।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

False Positives: ML रिडैक्शन क्यों विफल होता है

22.7% परिशुद्धता समस्या

False Flags की क्या कीमत है

सामान्य NLP यहां क्यों संघर्ष करता है

हाइब्रिड डिटेक्शन इसे कैसे ठीक करता है

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

False Positives: ML रिडैक्शन क्यों विफल होता है

22.7% परिशुद्धता समस्या

False Flags की क्या कीमत है

सामान्य NLP यहां क्यों संघर्ष करता है

हाइब्रिड डिटेक्शन इसे कैसे ठीक करता है

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow