By · Last updated 2026-06-06

العودة إلى المدونةتقني

مشكلة دقة Presidio: 22.7% فقط

كشف اختبار معياري أُجري عام 2024 أن محلل أسماء الأشخاص في Presidio يُحقق دقة 22.7% في مستندات الأعمال، ما يعني أن 77.3% من حالات الكشف إيجابيات زائفة.

June 6, 20267 دقيقة قراءة
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

مشكلة دقة Presidio: 22.7%

تتسبب الإيجابيات الزائفة في الكشف عن البيانات الشخصية في أضرار حقيقية. حين يكون 77.3% مما يُصنّفه الأداة باعتباره "أسماء أشخاص" ليست أسماءً حقيقية، فأنت لا تحمي الخصوصية، بل تُفسد البيانات.

aختبر اختبار معياري أُجري عام 2024 نموذج التعرف على الكيانات المسمّاة (NER) الافتراضي في Microsoft Presidio على مستندات الأعمال، شمل التقارير المالية ورسائل العملاء ومستندات المنتجات وتذاكر الدعم. كانت النتيجة: دقة 22.7% في الكشف عن الأسماء.

هذا رقم لافت للنظر؛ فمن كل 100 عنصر مُصنَّف، 23 فقط أسماء فردية حقيقية، والـ77 الباقية إيجابيات زائفة — ملصقات منتجات أو مصطلحات علامات تجارية أو أسماء مدن.

ثلاثة من كل أربعة حالات كشف خاطئة. هذه ليست مجرد مشكلة معايرة بسيطة، بل هي أداة معطلة للعمل على مستندات الأعمال.

لماذا يحدث هذا

يستخدم Presidio نموذج spaCy المسمّى en_core_web_lg افتراضياً. تعلّم هذا النموذج من نصوص إخبارية، حيث تكون معظم الأسماء الخاصة فيها أسماء أشخاص أو أماكن حقيقية.

مستندات الأعمال مختلفة تماماً.

ملصقات المنتجات المشابهة لأسماء الأشخاص. يُصنَّف "سجلات شحن Apple iPhone 15 Pro" باعتباره PERSON، وكذلك "Samsung Galaxy Tab" و"نشر Cisco Meraki".

مصطلحات الشركات التي تحتوي على أجزاء تشبه الأسماء. في "نتائج Johnson Controls"، تُصنَّف كلمة "Johnson" باعتبارها PERSON. ويُطلق "محفظة Goldman Sachs" الخطأ ذاته.

ملصقات المواقع التي تُفعّل كشف الأشخاص. "مشروع Victoria Harbour" يُصنّف "Victoria" باعتبارها PERSON. "مركز Santiago" يُصنّف "Santiago" بالطريقة ذاتها.

يفتقر النموذج إلى السياق الكافي للتمييز بين "Apple" (شركة) و"Apple Smith" (شخص). هذه الفجوة هي جذر معظم الإيجابيات الزائفة؛ تعلّم النموذج من النصوص الإخبارية أن يُعامل الأسماء الخاصة باعتبارها أشخاصاً أو أماكن، بينما تكسر نصوص الأعمال هذه القاعدة باستمرار.

الأثر على مجرى العمل

استخدمت شركة تحليل بيانات Presidio لتنظيف استطلاعات العملاء قبل مشاركتها. كشف تدقيق عن أربع مشكلات: أولاً، 40% من الاستطلاعات أُزيلت منها ملصقات المنتجات خطأً. ثانياً، جُرِّدت ملصقات المدن من كل إجابة. ثالثاً، مُحيت إشارات العلامات التجارية من مجموعة التحليل. رابعاً، أصبح من المستحيل قراءة المشاعر المتعلقة بمنتجات بعينها.

تلقّى فريق التحليل نصوصاً منقّحة أُزيلت منها جميع الإشارات إلى المنتجات؛ الاستطلاع كان يذكر أصلاً iPhone Pro وشاحن Apple، لكن تلك المعاني اختفت.

لم تكن الشركة تحمي الخصوصية بشكل أفضل؛ بل كانت تُتلف البيانات دون تحقيق أي امتثال. استُبدل Presidio بعد التدقيق.

راجع نظرة عامة على الامتثال لمعرفة كيف تؤثر جودة الكشف على وضعك التنظيمي.

نهج أفضل: الكشف الهجين

هذه المشكلة ليست حكراً على Presidio. التعرف على الكيانات على مستوى الرمز المميز (token) دون سياق سيعاني دائماً من هذه المشكلة. الحل هو الكشف الواعي بالسياق.

لماذا تُفيد نماذج المحولات (Transformers): يقرأ نموذج مثل XLM-RoBERTa الجملة كاملة. "أعلنت Apple عن أرباحها" → Apple شركة. "انضمت Apple Smith إلى الفريق" → Apple اسم أول. السياق يُحدد الفرق.

يُحسّن هذا الدقة مع الحفاظ على الاستدعاء مرتفعاً. انظر المقارنة أدناه.

النهجالدقةالاستدعاء
التعرف على الكيانات الافتراضي في Presidio22.7%~85%
التعبيرات النمطية فقط~95%~40%
هجين (تعبيرات نمطية + NLP + محوّل)~85%~80%

يصل النهج الهجين إلى دقة 85%، أي معدل إيجابية زائفة 15% — أفضل بكثير من 77.3%. في مستندات الأعمال، هذا الفارق جوهري.

يتكوّن المكدس الهجين من أربع خطوات:

  1. طبقة التعبيرات النمطية: تكشف المعرّفات المنظّمة — البريد الإلكتروني وأرقام الهاتف وأرقام الضمان الاجتماعي وأرقام IBAN. الصيغ ثابتة فالإيجابيات الزائفة نادرة. تعمل أولاً.

  2. طبقة NLP (spaCy): التعرف المعياري على الكيانات للأشخاص والشركات والأماكن. استدعاء مرتفع، دقة أقل.

  3. طبقة المحوّل (XLM-RoBERTa): تُعيد درجة كل نتيجة NLP باستخدام السياق الكامل للجملة. "Apple" في سياق منتج يفقد درجة الكيان. "John" في نص شكوى يكتسبها.

  4. عتبة الثقة: تجتاز المخرجات فقط النتائج التي تتجاوز درجة محددة. ارفع العتبة لحالات استخدام التحليل. اخفضها لإخفاء الهوية وفق HIPAA.

النتائج بعد التحوّل

تحوّلت شركة التحليل إلى الكشف الهجين. كانت المكاسب واضحة: انخفضت الإيجابيات الزائفة لملصقات المنتجات من 40% إلى 3%، وتراجعت إيجابيات المدن الزائفة إلى ما يقارب الصفر، كما ظل استدعاء الهويات الحقيقية عند ~82%، أقل قليلاً من 85%، لكن الدقة تحسنت بشكل ملحوظ.

أصبحت الاستطلاعات قابلة للاستخدام مجدداً؛ ظلت "iPhone" و"Apple" و"Samsung" و"Chicago" في النص، وأُزيلت أسماء العملاء بشكل صحيح في سياقات الشكاوى.

يتطلب الكشف الهجين حوسبة أكبر، ووقت تشغيل أطول قليلاً للمهام الكبيرة، لكن مكسب الدقة يستحق ذلك في معظم حالات استخدام الأعمال. استطاع الفريق تشغيل التحليل مجدداً — وكان ذلك الهدف الأصلي من بيانات الاستطلاع.

اطّلع على نهجنا في الكشف في نظرة الأمان.

متى تكون معدلات الإيجابية الزائفة المرتفعة مقبولة

بعض الحالات تُفضّل الاستدعاء على الدقة.

HIPAA Safe Harbor: إغفال إيجابية حقيقية يمثّل انتهاكاً. معدل إيجابية زائفة 10% مقبول إذا لم تُغفَل أي معلومات صحية محمية (PHI) حقيقية. الإزالة الزائدة أكثر أماناً من الإزالة المنقوصة.

المراجعة القانونية: قد يُؤدي إغفال جهة تواصل ذات امتياز إلى التنازل عن الامتياز. الإيجابيات الزائفة تحتاج إلى مراجعة لكنها لا تُنشئ مسؤولية قانونية.

التحليلات التجارية: الإزالة الزائدة تُتلف البيانات دون مكسب امتثال. الدقة أهم هنا. استخدم نهجاً هجيناً بعتبة ثقة مرتفعة، تحتفظ بملصقات العلامات التجارية ومصطلحات المدن في المخرجات مع إزالة أسماء الأشخاص الحقيقية فقط.

التوازن الصحيح يعتمد على حالة الاستخدام. الأدوات التي تُتيح ضبط العتبة تمنحك التحكم الكافي، إذ لا توجد إعدادات افتراضية واحدة تناسب كل السياقات.

راجع الأسئلة الشائعة للأسئلة المتكررة حول العتبات وأوضاع الكشف.

الخلاصة

معدل دقة 22.7% يعني أن 3 من كل 4 حالات كشف خاطئة. في مستندات الأعمال، هذا يجعل المخرجات غير صالحة للتحليل، كما يمنح ثقة زائفة بشأن الامتثال.

يُعالج الكشف الهجين هذه المشكلة بالجمع بين التعبيرات النمطية وNLP وتقييم المحوّلات. تبقى البيانات مفيدة بعد إخفاء الهوية، وتُزال أسماء الأشخاص الحقيقية، وتبقى ملصقات العلامات التجارية ومصطلحات المدن ومعرّفات المنتجات في مكانها.

إذا تركت Presidio بسبب مشكلات الإيجابيات الزائفة، فهذا هو المسار الصحيح: ليس تكويناً جديداً للنموذج ذاته، بل بنية مختلفة مصممة لسياقات مستندات الأعمال.

المصادر

اختبار Priva المعياري لبيانات PII 2024: تقييم دقة Presidio. تم التحقق منه خارجياً.

Microsoft Presidio: الكيانات المدعومة وبنية النموذج. تم التحقق منه خارجياً.

spaCy: بيانات تدريب en_core_web_lg وقيوده. تم التحقق منه خارجياً.

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.