محدَّث لعام 2026
مشكلة الدقة 22.7%
اختبرت دراسة أُجريت عام 2024 أداة Microsoft Presidio على الملفات التجارية. Presidio هي أداة PII مفتوحة المصدر تستخدمها على نطاق واسع الفرق القانونية والمجموعات الصحية.
قاست الدراسة مدى صحة نتائج Presidio. من بين جميع البنود التي صنّفتها كأسماء أشخاص، كم منها كان فعلاً أسماء أشخاص؟
كانت الإجابة 22.7%. نحو 77 من كل 100 تنبيه كانت خاطئة. أحصت الدراسة 13,536 تنبيهاً كاذباً عبر 4,434 ملف عينة.
لم تكن الأخطاء عشوائية. اتبعت أنماطاً واضحة:
- ضمائر صُنِّفت كأشخاص ("أنا" في بداية الجملة)
- تسميات سفن صُنِّفت كأشخاص ("ASL Scorpio")
- تسميات شركات صُنِّفت كأشخاص ("Deloitte & Touche")
- مصطلحات دول صُنِّفت كأشخاص ("Argentina" و"Singapore")
لا شيء من هذه حالات حافة نادرة. تظهر كلما واجه نموذج معالجة لغوية طبيعية عاماً نصوصاً متخصصة. لم يُبنَ النموذج للتمييز بينها.
ما تُكلّفه التنبيهات الكاذبة
في العمل القانوني والصحي، كل تنبيه يستلزم استجابة. تواجه الفرق ثلاثة خيارات، وكلها ذات تكاليف حقيقية.
الخيار 1: مراجعة بشرية لكل تنبيه. وقت المحامين والخبراء يتراوح بين 200 و800 دولار في الساعة. بدقة 22.7%، الحجم ضخم جداً. هذا غير قابل للتطبيق على نطاق واسع. راجع أتمتة PII في الاكتشاف الإلكتروني وتقليل تكاليف المراجعة القانونية لمعرفة كيفية نمو تكاليف المراجعة مع الحجم.
الخيار 2: تجاوز المراجعة والوثوق بالمخرجات. هذا أيضاً محفوف بالمخاطر. حين يكون 77% من البنود "المحجوبة" غير حساسة، تُفضي إلى مخاطر قانونية. غرّمت المحاكم محامين بسبب الحجب المفرط. راجع عقوبات الحجب المفرط في الاكتشاف الإلكتروني لحالات موثقة.
الخيار 3: رفع حد درجة النقاط. تتيح Presidio للمستخدمين ضبط score_threshold للتخلص من التنبيهات الضعيفة. اختبرت دراسة DICOM عام 2024 هذا عند مستوى 0.7 — وهو حد مرتفع نسبياً. كانت النتيجة: 38 من أصل 39 صورة DICOM لا تزال تحتوي على تنبيهات كاذبة. الحدود مفيدة، لكنها لا تُعالج السبب الجذري.
لماذا تُكافح معالجة اللغات الطبيعية العامة هنا
تنبع الفجوة في Presidio من التعارض بين بيانات التدريب والاستخدام الحقيقي.
الملفات القانونية مليئة بالمصطلحات بالأحرف الكبيرة. أسماء القضايا وعناوين القوانين ورموز المعروضات تبدو جميعها كبيانات شخصية لنموذج عام. فيُعلّم عليها. لكن معظمها ليس بيانات شخصية.
تُضيف الملفات الصحية أسماء الأدوية ورموز الأجهزة والاختصارات السريرية. "Pt." تعني مريض. "Dr." تعني طبيب. هذه تُعيق اكتشاف الكيانات بطرق يصعب التنبؤ بها.
تحتوي الملفات المالية على رموز منتجات وسلاسل كيانات ومعرّفات حسابات تتشارك أنماطاً سطحية مع السجلات الشخصية.
ضبط نموذج على بيانات خاصة بنطاق معين يُساعد. لكنه يستلزم وقتاً وجهداً للبناء والمتابعة المستمرة.
كيف يُحل الاكتشاف الهجين هذه المشكلة
لمشكلة التنبيهات الكاذبة حل واضح: قسّم العمل حسب نوع البيانات.
قواعد أنماط للبيانات المنظمة. أرقام الضمان الاجتماعي وأرقام الهاتف وعناوين البريد الإلكتروني وتنسيقات وثائق الهوية تتبع قواعد ثابتة. إما أن تطابق السلسلة النمط وتجتاز اختبار خانة الضبط، وإما لا. صفر من التنبيهات الكاذبة لمجموعات القواعد الصالحة.
نماذج اللغة للنص الحر. أسماء الأشخاص وتسميات الشركات والمواقع في النصوص السردية تفتقر إلى بنية صارمة. تكتشفها معالجة اللغات الطبيعية حين تعجز القواعد. درجات الثقة وفحوصات السياق تُقلّص معدل التنبيهات الكاذبة.
إعدادات درجات نقاط لكل نوع للتحكم الدقيق. الفرق القانونية التي لا تتحمل مخاطر الحجب المفرط تضبط حدوداً عالية للمطابقات الغامضة. أما فرق البحث التي تحتاج إلى استرجاع عالٍ فتضبط حدوداً أدنى. راجع اكتشاف PII الثنائي وتسجيل الثقة للامتثال لمعرفة كيفية عمل تدرجات النقاط عملياً.
النتيجة: أخطاء أقل بكثير من الإعدادات الافتراضية لـ Presidio. ويبقى الاسترجاع قوياً في الحالات التي ستُفوّتها القواعد وحدها.
بالنسبة للفرق القانونية والصحية، السؤال المحوري ليس ما إذا كانت التنبيهات الكاذبة موجودة. إنها دائماً موجودة في أنظمة معالجة اللغات الطبيعية. السؤال هو: هل تُتيح الأداة ضبط المفاضلة وقياسها وتوثيقها؟