مشکل دقت ۲۲.۷٪ Presidio
مثبتهای کاذب در تشخیص PII آسیب واقعی وارد میکنند. وقتی ۷۷.۳٪ از چیزی که ابزارتان به عنوان «نام افراد» علامت میگذارد، نام واقعی نیست، از حریم خصوصی محافظت نمیکنید. دارید داده را خراب میکنید.
یک معیار ۲۰۲۴ مدل NER پیشفرض Microsoft Presidio را روی اسناد تجاری آزمایش کرد. آزمایش شامل گزارشهای مالی، نامههای مشتری، اسناد محصول، و تیکتهای پشتیبانی بود. نتیجه: دقت ۲۲.۷٪ برای تشخیص نام.
این عدد قابل توجه است. از هر ۱۰۰ مورد علامتگذاریشده، ۲۳ تا نام فرد واقعی است. ۷۷ تای دیگر مثبت کاذب هستند — برچسبهای محصول، اصطلاحات برند، یا برچسبهای شهر.
سه تا از چهار تشخیص اشتباه است. این یک مشکل کالیبراسیون جزئی نیست. برای کار با اسناد تجاری، یک ابزار معیوب است.
چرا این اتفاق میافتد
Presidio به طور پیشفرض از مدل en_core_web_lg spaCy استفاده میکند. این مدل از متن خبری آموخته است. در اخبار، اکثر اسامی خاص افراد یا مکانهای واقعی هستند.
اسناد تجاری متفاوتند.
برچسبهای محصولی که شبیه نام افراد به نظر میرسند. «سوابق حمل Apple iPhone 15 Pro» به عنوان PERSON علامت میخورد. «Samsung Galaxy Tab» و «استقرار Cisco Meraki» هم همینطور.
اصطلاحات شرکتی با بخشهای شبیه نام. در «نتایج Johnson Controls»، کلمه «Johnson» به عنوان PERSON علامت میخورد. «پرتفوی Goldman Sachs» هم خطای مشابه ایجاد میکند.
برچسبهای مکانی که تشخیص فرد را فعال میکنند. «پروژه Victoria Harbour» کلمه «Victoria» را به عنوان PERSON علامت میگذارد. «هاب Santiago» هم «Santiago» را همینطور علامت میگذارد.
مدل زمینه لازم برای تشخیص «Apple» (شرکت) از «Apple Smith» (یک فرد) را ندارد. این شکاف ریشه اکثر مثبتهای کاذب است. متن خبری به آن آموخت که اسامی خاص را افراد یا مکانها بپندارد. متن تجاری این قانون را دائماً میشکند.
اثر پاییندستی
یک شرکت داده از Presidio برای تمیز کردن نظرسنجیهای مشتری قبل از اشتراکگذاری استفاده کرد. یک حسابرسی چهار مشکل را کشف کرد. اول، ۴۰٪ از نظرسنجیها برچسبهای محصول به اشتباه حذفشده داشتند. دوم، برچسبهای شهر از هر پاسخ حذف شده بود. سوم، اشارههای برند از مجموعه تحلیل پاکسازی شده بود. چهارم، احساس درباره محصولات خاص قابل خواندن نبود.
تیم تحلیل متن حذفشدهای دریافت کرد که تمام مراجع محصول از آن برداشته شده بود. نظرسنجی اصلی iPhone Pro و شارژر Apple را نام برده بود. آن معنا از بین رفته بود.
این شرکت حریم خصوصی را بهتر محافظت نمیکرد. داده را بدون کسب انطباق خراب میکرد. Presidio پس از حسابرسی جایگزین شد.
برای اینکه کیفیت تشخیص چگونه وضعیت قانونی شما را تحت تأثیر قرار میدهد، مرور انطباق را ببینید.
رویکرد بهتر: تشخیص ترکیبی
این مشکل منحصر به Presidio نیست. NER در سطح توکن بدون زمینه همیشه این مشکل را دارد. راهحل تشخیص آگاه از زمینه است.
چرا ترانسفورمرها کمک میکنند: مدلی مثل XLM-RoBERTa جمله کامل را میخواند. «Apple درآمدهایش را اعلام کرد» → Apple یک شرکت است. «Apple Smith به تیم پیوست» → Apple یک نام است. زمینه به شما میگوید کدام است.
این دقت را بهبود میبخشد در حالی که بازیابی را بالا نگه میدارد. مقایسه زیر را ببینید.
| رویکرد | دقت | بازیابی |
|---|---|---|
| NER پیشفرض Presidio | ۲۲.۷٪ | ~۸۵٪ |
| فقط Regex | ~۹۵٪ | ~۴۰٪ |
| ترکیبی (Regex + NLP + Transformer) | ~۸۵٪ | ~۸۰٪ |
رویکرد ترکیبی به دقت ۸۵٪ میرسد. یعنی نرخ مثبت کاذب ۱۵٪. بسیار بهتر از ۷۷.۳٪. برای اسناد تجاری، این شکاف اهمیت دارد.
پشته ترکیبی چهار مرحله دارد:
۱. لایه Regex: شناسههای ساختاریافته را پیدا میکند — ایمیلها، شماره تلفنها، SSNها، IBANها. فرمتها ثابت هستند، بنابراین مثبتهای کاذب نادر است. ابتدا اجرا میشود.
۲. لایه NLP (spaCy): NER استاندارد برای افراد، شرکتها، و مکانها. بازیابی بالا، دقت پایینتر.
۳. لایه ترانسفورمر (XLM-RoBERTa): هر نتیجه NLP را با استفاده از زمینه جمله کامل دوباره امتیازدهی میکند. «Apple» در زمینه محصول امتیاز موجودیتش را از دست میدهد. «John» در متن شکایت آن را به دست میآورد.
۴. آستانه اطمینان: فقط نتایجی که بالاتر از یک امتیاز تعیینشده هستند به خروجی میرسند. آستانه را برای موارد استفاده تحلیتی بالا ببرید. برای شناساییزدایی HIPAA آن را پایین بیاورید.
نتایج پس از تغییر
شرکت تحلیتی به تشخیص ترکیبی تغییر داد. دستاوردها روشن بود. مثبتهای کاذب برچسب محصول از ۴۰٪ به ۳٪ کاهش یافت. مثبتهای کاذب برچسب شهر تقریباً به صفر رسید. بازیابی هویت واقعی در ~۸۲٪ باقی ماند، کمی کمتر از ۸۵٪، اما دقت بهبود زیادی یافت.
نظرسنجیها دوباره قابل استفاده شدند. «iPhone»، «Apple»، «Samsung»، و «Chicago» در متن باقی ماندند. نامهای مشتریان در زمینههای شکایت به درستی حذف شدند.
تشخیص ترکیبی محاسبات بیشتری نیاز دارد. برای کارهای بزرگ، زمان اجرا کمی طولانیتر است. برای اکثر موارد استفاده تجاری، بهبود دقت ارزشش را دارد. شرکت میتوانست دوباره تحلیل انجام دهد. این هدف اصلی دادههای نظرسنجی بود.
درباره رویکرد تشخیص ما در مرور امنیتی بخوانید.
زمانی که نرخ مثبت کاذب بالا قابل قبول است
برخی موارد بازیابی را بر دقت ترجیح میدهند.
HIPAA Safe Harbor: از دست دادن یک مثبت واقعی نقض است. نرخ مثبت کاذب ۱۰٪ اگر PHI واقعی هرگز از دست نرود خوب است. حذف بیش از حد امنتر از حذف کمتر از حد لازم است.
بررسی حقوقی: از دست دادن یک مخاطب محرمانه ممکن است امتیاز را باطل کند. مثبتهای کاذب نیاز به بررسی دارند اما مسئولیتی ایجاد نمیکنند.
تحلیتیک تجاری: حذف بیش از حد داده را بدون بهبود انطباق خراب میکند. اینجا دقت اهمیت بیشتری دارد. از رویکرد ترکیبی با آستانه اطمینان بالا استفاده کنید. این برچسبهای برند و اصطلاحات شهر را در خروجی نگه میدارد. فقط نامهای واقعی افراد حذف میشوند.
تعادل مناسب به مورد استفاده شما بستگی دارد. ابزارهایی که به شما اجازه تنظیم آستانه میدهند، کنترل را به دست شما میدهند. هیچ پیشفرض واحدی برای همه زمینهها کار نمیکند.
برای سوالات رایج درباره آستانهها و حالتهای تشخیص، FAQ را ببینید.
نتیجهگیری
نرخ دقت ۲۲.۷٪ یعنی ۳ تا از ۴ تشخیص اشتباه است. برای اسناد تجاری، این خروجی را برای تحلیل غیرقابل استفاده میکند. همچنین اطمینان کاذب درباره انطباق میدهد.
تشخیص ترکیبی این را برطرف میکند. Regex، NLP، و امتیازدهی ترانسفورمر را ترکیب میکند. داده پس از ناشناسسازی مفید باقی میماند. نامهای واقعی افراد حذف میشوند. برچسبهای برند، اصطلاحات شهر، و شناسههای محصول باقی میمانند.
اگر به خاطر مشکلات مثبت کاذب Presidio را ترک کردید، این مسیر پیشروی است. نه یک پیکربندی جدید از همان مدل. یک معماری متفاوت که برای زمینههای سند تجاری ساخته شده است.
منابع
معیار Priva PII 2024: ارزیابی دقت Presidio. تأییدشده-خارجی.
Microsoft Presidio: موجودیتهای پشتیبانیشده و معماری مدل. تأییدشده-خارجی.
spaCy: دادههای آموزشی en_core_web_lg و محدودیتها. تأییدشده-خارجی.