العودة إلى المدونةتقني

مشكلة الإيجابيات الكاذبة: لماذا تكلف إزالة البيانات...

وجد معيار 2024 أن Presidio أنتجت 13,536 اكتشافًا إيجابيًا كاذبًا لأسماء عبر 4,434 عينة - مما يشير إلى الضمائر وأسماء السفن والدول كأسماء أشخاص.

March 23, 20268 دقيقة قراءة
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

مشكلة الدقة بنسبة 22.7% في الإنتاج

وجدت دراسة معيارية لعام 2024 لمحرك الكشف عن البيانات الشخصية مفتوح المصدر Microsoft Presidio - المستخدم في التكنولوجيا القانونية والرعاية الصحية وتطبيقات حماية البيانات المؤسسية - أن معدل الدقة 22.7% لاكتشاف أسماء الأشخاص في سياقات الوثائق التجارية.

تقيس الدقة دقة التعريفات الإيجابية: ما النسبة المئوية من العناصر التي علمها الأداة كـ "أسماء أشخاص" هي في الواقع أسماء أشخاص. عند 22.7%، تقريبًا 77 من كل 100 عنصر علمت كأسماء أشخاص هي إيجابيات كاذبة.

وثقت المعايير 13,536 اكتشافًا إيجابيًا كاذبًا للأسماء عبر 4,434 عينة وثائق. تضمنت الإيجابيات الكاذبة:

  • الضمائر التي علمت كأسماء أشخاص ("أنا" تظهر في بداية الجمل)
  • أسماء السفن التي علمت كأسماء أشخاص ("ASL Scorpio")
  • أسماء المنظمات التي علمت كأسماء أشخاص ("Deloitte & Touche")
  • أسماء الدول التي علمت كأسماء أشخاص ("الأرجنتين"، "سنغافورة")

هذه ليست حالات نادرة. إنها أنماط منهجية تظهر عندما يتم تطبيق نموذج معالجة اللغة الطبيعية العام المدرب على مجموعات مختلطة على أنواع وثائق محددة حيث تظهر الأسماء الصحيحة في سياقات لم يتم تدريب النموذج على توضيحها.

هيكل تكلفة الإيجابيات الكاذبة على نطاق واسع

في البيئات القانونية والرعاية الصحية، فإن الإيجابيات الكاذبة ليست مجانية. كل عنصر علم يتطلب تصرفًا: إما مراجعة بشرية لتأكيد أو رفض العلم، أو معالجة تلقائية تترك الإيجابية الكاذبة دون تصحيح.

الخيار 1: مراجعة بشرية لكل عنصر علم. بتكلفة تتراوح بين 200 إلى 800 دولار في الساعة لوقت المحامي أو المتخصص، فإن مراجعة الإيجابيات الكاذبة من نظام دقة 22.7% تعتبر غير اقتصادية على نطاق واسع. لإنتاج يتكون من 10,000 وثيقة مع 100 عنصر علم في كل وثيقة بدقة 22.7%، يتطلب تقريبًا 77,300 عنصر مراجعة بشرية. مع 5 دقائق لكل عنصر بتكلفة 300 دولار في الساعة، فإن ذلك يعادل 6,442 ساعة من وقت المراجعة - تقريبًا 1.9 مليون دولار.

الخيار 2: تخطي المراجعة اليدوية وقبول المعالجة التلقائية. النتيجة هي إنتاج حيث أن 77% من العناصر "المحررة" لم تكن حساسة في الواقع - مما يخلق مسؤولية الإفراط في التحرير (محتوى قابل للاكتشاف تم حجب دون أسباب)، مما يدمر فائدة الوثيقة، وقد يؤدي إلى فرض عقوبات.

الخيار 3: عتبات الدرجات. يسمح Presidio بتكوين عتبة الدرجات لتقليل الإيجابيات الكاذبة من خلال علم العناصر فقط التي تتجاوز عتبة الثقة. وجدت دراسة معيارية لعام 2024 لوثائق التصوير الطبي DICOM أنه حتى مع score_threshold=0.7 - وهو فلتر دقة نسبي عدواني - كان لا يزال هناك 38 من 39 صورة DICOM تحتوي على كيانات إيجابية كاذبة. تقلل عتبات الدرجات ولكنها لا تقضي على مشكلة الإيجابيات الكاذبة للكشف باستخدام التعلم الآلي النقي.

لماذا يفشل التعلم الآلي النقي في الوثائق المحددة المجال

تعكس نمط الإيجابيات الكاذبة في Presidio قيدًا أساسيًا لنماذج معالجة اللغة الطبيعية العامة في السياقات المحددة المجال:

تحتوي الوثائق القانونية على أسماء صحيحة متخصصة - أسماء القضايا، أسماء القوانين، تسميات المعروضات - التي تشترك في أنماط سطحية مع أسماء الأشخاص. يتعلم النموذج المدرب على النصوص العامة أن الأسماء الصحيحة المكتوبة بحروف كبيرة غالبًا ما تكون أسماء أشخاص. تحتوي الوثيقة القانونية على مئات من الأسماء الصحيحة المكتوبة بحروف كبيرة التي ليست أسماء أشخاص.

تحتوي الوثائق الصحية على أسماء الأدوية، أسماء الأجهزة، ورموز الإجراءات التي تتضمن تسلسلات حروف تشبه اختصارات الأسماء. تحتوي النصوص السريرية أيضًا على اختصارات ("Pt." للمريض، "Dr." للطبيب) التي تتفاعل بشكل غير متوقع مع اكتشاف الأسماء.

تحتوي الوثائق المالية على أسماء المنتجات، أسماء الكيانات، ورموز التعريف التي تشترك في أنماط مع المعرفات الشخصية.

تتناول التعديلات المحددة المجال هذه الأنماط، ولكنها تتطلب استثمارًا كبيرًا في مجموعات بيانات الضبط الدقيق والصيانة المستمرة مع تطور أنواع الوثائق.

حل الهندسة الهجينة

يمكن حل مشكلة الإيجابيات الكاذبة هيكليًا من خلال الكشف الهجين الذي يفصل بين البيانات الهيكلية (حيث يوفر regex دقة 100%) من البيانات السياقية (حيث يوفر التعلم الآلي التعرف على الأنماط مع ثقة مضبوطة).

Regex للمعرفات الهيكلية: أرقام الضمان الاجتماعي، أرقام الهواتف، عناوين البريد الإلكتروني، أرقام بطاقات الائتمان، تنسيقات الهوية الوطنية، أرقام حسابات البنوك. هذه التنسيقات حتمية - إما أن تتطابق السلسلة مع النمط وتنجح في التحقق من صحة المجموع أو لا. صفر إيجابيات كاذبة للتطبيقات الشرعية.

NLP للكيانات السياقية: أسماء الأشخاص، أسماء المنظمات، المواقع في النص غير الهيكلي. توفر نماذج معالجة اللغة الطبيعية استرجاعًا للكيانات التي تفتقر إلى الأنماط الهيكلية. يقلل تسجيل الثقة ومتطلبات كلمات السياق من الإيجابيات الكاذبة.

تكوين العتبات لكل نوع كيان: ضبط عتبة ثقة بنسبة 90% لأسماء الأشخاص بينما يستخدم اليقين regex (فعليًا 100%) لأرقام الضمان الاجتماعي يسمح بمعايرة لتحمل الإيجابيات الكاذبة المحددة المجال. الفرق القانونية التي لا يمكنها تحمل الإفراط في التحرير تضع عتبات أعلى؛ فرق البحث السريري التي تعظم استرجاع إلغاء التعريف تضع عتبات أقل.

النتيجة: معدلات إيجابيات كاذبة أقل بكثير من افتراضات Presidio مع الحفاظ على الاسترجاع الذي لا يمكن أن تحققه المطابقة النمطية النقية. بالنسبة للمنظمات القانونية والصحية التي تقيم أدوات إزالة البيانات الآلية، فإن التجارة بين الدقة والاسترجاع قابلة للإدارة - ولكن فقط مع أداة تعرضها كمعامل قابل للتكوين بدلاً من سلوك نظام ثابت.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.