By · Last updated 2026-06-05

بازگشت به وبلاگفنی

مشکل دقت ۲۲.۷٪ Presidio

یک معیار ۲۰۲۴ نشان داد که تشخیص‌دهنده نام افراد Presidio در اسناد تجاری به دقت ۲۲.۷٪ می‌رسد — یعنی ۷۷.۳٪ از تشخیص‌ها مثبت کاذب هستند.

June 5, 20267 دقیقه مطالعه
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

مشکل دقت ۲۲.۷٪ Presidio

مثبت‌های کاذب در تشخیص PII آسیب واقعی وارد می‌کنند. وقتی ۷۷.۳٪ از چیزی که ابزارتان به عنوان «نام افراد» علامت می‌گذارد، نام واقعی نیست، از حریم خصوصی محافظت نمی‌کنید. دارید داده را خراب می‌کنید.

یک معیار ۲۰۲۴ مدل NER پیش‌فرض Microsoft Presidio را روی اسناد تجاری آزمایش کرد. آزمایش شامل گزارش‌های مالی، نامه‌های مشتری، اسناد محصول، و تیکت‌های پشتیبانی بود. نتیجه: دقت ۲۲.۷٪ برای تشخیص نام.

این عدد قابل توجه است. از هر ۱۰۰ مورد علامت‌گذاری‌شده، ۲۳ تا نام فرد واقعی است. ۷۷ تای دیگر مثبت کاذب هستند — برچسب‌های محصول، اصطلاحات برند، یا برچسب‌های شهر.

سه تا از چهار تشخیص اشتباه است. این یک مشکل کالیبراسیون جزئی نیست. برای کار با اسناد تجاری، یک ابزار معیوب است.

چرا این اتفاق می‌افتد

Presidio به طور پیش‌فرض از مدل en_core_web_lg spaCy استفاده می‌کند. این مدل از متن خبری آموخته است. در اخبار، اکثر اسامی خاص افراد یا مکان‌های واقعی هستند.

اسناد تجاری متفاوتند.

برچسب‌های محصولی که شبیه نام افراد به نظر می‌رسند. «سوابق حمل Apple iPhone 15 Pro» به عنوان PERSON علامت می‌خورد. «Samsung Galaxy Tab» و «استقرار Cisco Meraki» هم همین‌طور.

اصطلاحات شرکتی با بخش‌های شبیه نام. در «نتایج Johnson Controls»، کلمه «Johnson» به عنوان PERSON علامت می‌خورد. «پرتفوی Goldman Sachs» هم خطای مشابه ایجاد می‌کند.

برچسب‌های مکانی که تشخیص فرد را فعال می‌کنند. «پروژه Victoria Harbour» کلمه «Victoria» را به عنوان PERSON علامت می‌گذارد. «هاب Santiago» هم «Santiago» را همین‌طور علامت می‌گذارد.

مدل زمینه لازم برای تشخیص «Apple» (شرکت) از «Apple Smith» (یک فرد) را ندارد. این شکاف ریشه اکثر مثبت‌های کاذب است. متن خبری به آن آموخت که اسامی خاص را افراد یا مکان‌ها بپندارد. متن تجاری این قانون را دائماً می‌شکند.

اثر پایین‌دستی

یک شرکت داده از Presidio برای تمیز کردن نظرسنجی‌های مشتری قبل از اشتراک‌گذاری استفاده کرد. یک حسابرسی چهار مشکل را کشف کرد. اول، ۴۰٪ از نظرسنجی‌ها برچسب‌های محصول به اشتباه حذف‌شده داشتند. دوم، برچسب‌های شهر از هر پاسخ حذف شده بود. سوم، اشاره‌های برند از مجموعه تحلیل پاک‌سازی شده بود. چهارم، احساس درباره محصولات خاص قابل خواندن نبود.

تیم تحلیل متن حذف‌شده‌ای دریافت کرد که تمام مراجع محصول از آن برداشته شده بود. نظرسنجی اصلی iPhone Pro و شارژر Apple را نام برده بود. آن معنا از بین رفته بود.

این شرکت حریم خصوصی را بهتر محافظت نمی‌کرد. داده را بدون کسب انطباق خراب می‌کرد. Presidio پس از حسابرسی جایگزین شد.

برای اینکه کیفیت تشخیص چگونه وضعیت قانونی شما را تحت تأثیر قرار می‌دهد، مرور انطباق را ببینید.

رویکرد بهتر: تشخیص ترکیبی

این مشکل منحصر به Presidio نیست. NER در سطح توکن بدون زمینه همیشه این مشکل را دارد. راه‌حل تشخیص آگاه از زمینه است.

چرا ترانسفورمرها کمک می‌کنند: مدلی مثل XLM-RoBERTa جمله کامل را می‌خواند. «Apple درآمدهایش را اعلام کرد» → Apple یک شرکت است. «Apple Smith به تیم پیوست» → Apple یک نام است. زمینه به شما می‌گوید کدام است.

این دقت را بهبود می‌بخشد در حالی که بازیابی را بالا نگه می‌دارد. مقایسه زیر را ببینید.

رویکرددقتبازیابی
NER پیش‌فرض Presidio۲۲.۷٪~۸۵٪
فقط Regex~۹۵٪~۴۰٪
ترکیبی (Regex + NLP + Transformer)~۸۵٪~۸۰٪

رویکرد ترکیبی به دقت ۸۵٪ می‌رسد. یعنی نرخ مثبت کاذب ۱۵٪. بسیار بهتر از ۷۷.۳٪. برای اسناد تجاری، این شکاف اهمیت دارد.

پشته ترکیبی چهار مرحله دارد:

۱. لایه Regex: شناسه‌های ساختاریافته را پیدا می‌کند — ایمیل‌ها، شماره تلفن‌ها، SSN‌ها، IBAN‌ها. فرمت‌ها ثابت هستند، بنابراین مثبت‌های کاذب نادر است. ابتدا اجرا می‌شود.

۲. لایه NLP (spaCy): NER استاندارد برای افراد، شرکت‌ها، و مکان‌ها. بازیابی بالا، دقت پایین‌تر.

۳. لایه ترانسفورمر (XLM-RoBERTa): هر نتیجه NLP را با استفاده از زمینه جمله کامل دوباره امتیازدهی می‌کند. «Apple» در زمینه محصول امتیاز موجودیتش را از دست می‌دهد. «John» در متن شکایت آن را به دست می‌آورد.

۴. آستانه اطمینان: فقط نتایجی که بالاتر از یک امتیاز تعیین‌شده هستند به خروجی می‌رسند. آستانه را برای موارد استفاده تحلیتی بالا ببرید. برای شناسایی‌زدایی HIPAA آن را پایین بیاورید.

نتایج پس از تغییر

شرکت تحلیتی به تشخیص ترکیبی تغییر داد. دستاوردها روشن بود. مثبت‌های کاذب برچسب محصول از ۴۰٪ به ۳٪ کاهش یافت. مثبت‌های کاذب برچسب شهر تقریباً به صفر رسید. بازیابی هویت واقعی در ~۸۲٪ باقی ماند، کمی کمتر از ۸۵٪، اما دقت بهبود زیادی یافت.

نظرسنجی‌ها دوباره قابل استفاده شدند. «iPhone»، «Apple»، «Samsung»، و «Chicago» در متن باقی ماندند. نام‌های مشتریان در زمینه‌های شکایت به درستی حذف شدند.

تشخیص ترکیبی محاسبات بیشتری نیاز دارد. برای کارهای بزرگ، زمان اجرا کمی طولانی‌تر است. برای اکثر موارد استفاده تجاری، بهبود دقت ارزشش را دارد. شرکت می‌توانست دوباره تحلیل انجام دهد. این هدف اصلی داده‌های نظرسنجی بود.

درباره رویکرد تشخیص ما در مرور امنیتی بخوانید.

زمانی که نرخ مثبت کاذب بالا قابل قبول است

برخی موارد بازیابی را بر دقت ترجیح می‌دهند.

HIPAA Safe Harbor: از دست دادن یک مثبت واقعی نقض است. نرخ مثبت کاذب ۱۰٪ اگر PHI واقعی هرگز از دست نرود خوب است. حذف بیش از حد امن‌تر از حذف کمتر از حد لازم است.

بررسی حقوقی: از دست دادن یک مخاطب محرمانه ممکن است امتیاز را باطل کند. مثبت‌های کاذب نیاز به بررسی دارند اما مسئولیتی ایجاد نمی‌کنند.

تحلیتیک تجاری: حذف بیش از حد داده را بدون بهبود انطباق خراب می‌کند. اینجا دقت اهمیت بیشتری دارد. از رویکرد ترکیبی با آستانه اطمینان بالا استفاده کنید. این برچسب‌های برند و اصطلاحات شهر را در خروجی نگه می‌دارد. فقط نام‌های واقعی افراد حذف می‌شوند.

تعادل مناسب به مورد استفاده شما بستگی دارد. ابزارهایی که به شما اجازه تنظیم آستانه می‌دهند، کنترل را به دست شما می‌دهند. هیچ پیش‌فرض واحدی برای همه زمینه‌ها کار نمی‌کند.

برای سوالات رایج درباره آستانه‌ها و حالت‌های تشخیص، FAQ را ببینید.

نتیجه‌گیری

نرخ دقت ۲۲.۷٪ یعنی ۳ تا از ۴ تشخیص اشتباه است. برای اسناد تجاری، این خروجی را برای تحلیل غیرقابل استفاده می‌کند. همچنین اطمینان کاذب درباره انطباق می‌دهد.

تشخیص ترکیبی این را برطرف می‌کند. Regex، NLP، و امتیازدهی ترانسفورمر را ترکیب می‌کند. داده پس از ناشناس‌سازی مفید باقی می‌ماند. نام‌های واقعی افراد حذف می‌شوند. برچسب‌های برند، اصطلاحات شهر، و شناسه‌های محصول باقی می‌مانند.

اگر به خاطر مشکلات مثبت کاذب Presidio را ترک کردید، این مسیر پیشروی است. نه یک پیکربندی جدید از همان مدل. یک معماری متفاوت که برای زمینه‌های سند تجاری ساخته شده است.

منابع

معیار Priva PII 2024: ارزیابی دقت Presidio. تأییدشده-خارجی.

Microsoft Presidio: موجودیت‌های پشتیبانی‌شده و معماری مدل. تأییدشده-خارجی.

spaCy: داده‌های آموزشی en_core_web_lg و محدودیت‌ها. تأییدشده-خارجی.

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.