ضريبة الامتثال غير المرئية
عادةً ما يتم تقييم أدوات اكتشاف PII بناءً على الاسترجاع - ما هي النسبة المئوية من PII الفعلي التي تم التقاطها بواسطة الأداة؟ ولكن الدقة - ما هي النسبة المئوية من اكتشافات الأداة التي هي PII فعلية - تحدد التكلفة التشغيلية لاستخدام الأداة.
نظام لديه استرجاع بنسبة 95% ودقة بنسبة 22.7% يلتقط 95% من PII الحقيقي ولكن لكل كيان PII حقيقي تم اكتشافه، يرفع 3.4 إيجابيات كاذبة. في مجموعة بيانات تحتوي على 10,000 كيان PII حقيقي، ينتج هذا النظام 10,000 / 0.227 ≈ 44,000 اكتشاف إجمالي، منها 34,000 إيجابيات كاذبة تتطلب مراجعة يدوية أو تسبب في الإفراط في الحذف.
هذه هي "ضريبة الإيجابيات الكاذبة": العبء التشغيلي المفروض على أي منظمة تحاول استخدام نظام اكتشاف PII عالي الاسترجاع ومنخفض الدقة على نطاق الإنتاج. لضريبة الإيجابيات الكاذبة تكاليف مباشرة - وقت المراجعين اليدويين - وتكاليف غير مباشرة: الوثائق المفرطة الحذف تحجب المعلومات ذات الصلة، تبطئ سير العمل، وتقلل الثقة في النظام الآلي.
ما توثقه مشكلة Presidio #1071
توثق مناقشة Microsoft Presidio GitHub #1071 (2024) نمط إيجابيات كاذبة محددة ومنهجية. تنتج أدوات التعرف على TFN (رقم ملف الضريبة) وPCI مع التحقق من صحة المجموعات درجات ثقة تبلغ 1.0 - أقصى ثقة - للأرقام غير PII التي تمر عن طريق الصدفة عبر خوارزمية المجموع.
المشكلة التصميمية: يتم تطبيق التحقق من كلمات السياق (التحقق من أن كلمات مثل "رقم ملف الضريبة" أو "TFN" تظهر بالقرب من الكيان المكتشف) بعد خطوة المجموع بدلاً من قبلها. الأرقام التي تمر عبر المجموع تحصل على درجة 1.0 بغض النظر عن السياق. في الوثائق التي تحتوي على بيانات عددية - جداول مالية، مجموعات بيانات علمية، ملفات سجل - ينتج عن ذلك فيض من الإيجابيات الكاذبة التي لا يمكن تصفيتها فقط بواسطة عتبة الدرجة.
نمط منفصل من مجتمع Presidio (مشكلة GitHub #999): تقسيم الكلمات الألمانية ينتج إيجابيات كاذبة للكيانات المتعلقة بالأسماء والمواقع. يمكن أن يتم تقسيم المركبات الألمانية مثل "Bundesbehörde" (السلطة الفيدرالية) أو المصطلحات الألمانية الشائعة بشكل غير صحيح واكتشافها كأسماء شخصية.
مشكلة الدقة بنسبة 22.7%
قيم ألفارو وآخرون (2024) إعدادات Presidio الافتراضية على مجموعات بيانات المؤسسات متعددة اللغات ووجدوا دقة بنسبة 22.7% - مما يعني أنه في الوثائق المؤسسية الحقيقية، أقل من 1 من كل 4 اكتشافات من Presidio تتوافق مع PII الفعلي. هذه النسبة تتماشى مع تجربة الممارسين في الميدان: Presidio المعدل للاسترخاء ينتج ضوضاء غير قابلة للاستخدام في الإنتاج.
وجدت دراسة عام 2024 تفحص بيانات التصوير الطبي DICOM أن حتى مع score_threshold=0.7، لا تزال 38 من 39 صورة DICOM تحتوي على كيانات إيجابية كاذبة. العتبة التي تقضي على الإيجابيات الكاذبة لنوع مستند واحد تخلق سلبيات كاذبة لنوع آخر.
مشكلة الدقة ليست فريدة من نوعها في Presidio - إنها تعكس الصعوبة الجوهرية في بناء كاشف PII عالي الاسترجاع الذي يحقق أيضًا دقة عالية عبر أنواع الوثائق المختلفة، اللغات، وصيغ البيانات. التحدي هو أن أي عتبة ثابتة تمثل مقايضة: العتبة العالية تقلل من الإيجابيات الكاذبة ولكن تزيد من السلبيات الكاذبة؛ العتبة المنخفضة تزيد من الاسترجاع ولكن تضخم الإيجابيات الكاذبة.
الحل القائم على السياق
البديل لضبط العتبة هو تسجيل الثقة القائم على السياق. بدلاً من تعيين الثقة بناءً فقط على مطابقة نمط الكيان، يعزز التسجيل القائم على السياق الثقة عندما تظهر كلمات السياق بالقرب من المطابقة ويقلل من الإيجابيات الكاذبة عندما يكون السياق غائبًا.
لاكتشاف TFN: يتم تعزيز الدرجة عندما تظهر "رقم ملف الضريبة"، "TFN"، أو "الضرائب الأسترالية" ضمن نافذة قابلة للتكوين. الرقم الذي يمر عبر مجموع TFN دون كلمات سياق قريبة يحصل على درجة ثقة مخفضة تقع تحت عتبة المراجعة.
لإيجابيات كاذبة متعددة اللغات: يمكن تحديد أنواع الكيانات التي تخص لغات معينة (رقم الهوية الضريبية الألمانية، NIR الفرنسية، TFN الأسترالية) للوثائق المكتشفة على أنها تلك اللغة. كاشف TFN المطبق فقط على الوثائق الإنجليزية والأسترالية الإنجليزية يقضي على الإيجابيات الكاذبة المنهجية التي تحدث عندما يعمل نفس الكاشف على الوثائق الألمانية.
الطبقة الثالثة من الكشف الهجين - النماذج السياقية المعتمدة على المحولات - تضيف طبقة أخرى: يقوم النموذج بتقييم السياق المحيط الكامل لتمييز اسم شخص حقيقي ("جون سميث، رقم المريض 12345") عن إيجابية كاذبة (معرف منتج يتطابق مع نمط الاسم).
المصادر: