مشکل دقت ۲۲.۷٪ Presidio

مثبت‌های کاذب در تشخیص PII آسیب واقعی وارد می‌کنند. وقتی ۷۷.۳٪ از چیزی که ابزارتان به عنوان «نام افراد» علامت می‌گذارد، نام واقعی نیست، از حریم خصوصی محافظت نمی‌کنید. دارید داده را خراب می‌کنید.

یک معیار ۲۰۲۴ مدل NER پیش‌فرض Microsoft Presidio را روی اسناد تجاری آزمایش کرد. آزمایش شامل گزارش‌های مالی، نامه‌های مشتری، اسناد محصول، و تیکت‌های پشتیبانی بود. نتیجه: دقت ۲۲.۷٪ برای تشخیص نام.

این عدد قابل توجه است. از هر ۱۰۰ مورد علامت‌گذاری‌شده، ۲۳ تا نام فرد واقعی است. ۷۷ تای دیگر مثبت کاذب هستند — برچسب‌های محصول، اصطلاحات برند، یا برچسب‌های شهر.

سه تا از چهار تشخیص اشتباه است. این یک مشکل کالیبراسیون جزئی نیست. برای کار با اسناد تجاری، یک ابزار معیوب است.

چرا این اتفاق می‌افتد

Presidio به طور پیش‌فرض از مدل en_core_web_lg spaCy استفاده می‌کند. این مدل از متن خبری آموخته است. در اخبار، اکثر اسامی خاص افراد یا مکان‌های واقعی هستند.

اسناد تجاری متفاوتند.

برچسب‌های محصولی که شبیه نام افراد به نظر می‌رسند. «سوابق حمل Apple iPhone 15 Pro» به عنوان PERSON علامت می‌خورد. «Samsung Galaxy Tab» و «استقرار Cisco Meraki» هم همین‌طور.

اصطلاحات شرکتی با بخش‌های شبیه نام. در «نتایج Johnson Controls»، کلمه «Johnson» به عنوان PERSON علامت می‌خورد. «پرتفوی Goldman Sachs» هم خطای مشابه ایجاد می‌کند.

برچسب‌های مکانی که تشخیص فرد را فعال می‌کنند. «پروژه Victoria Harbour» کلمه «Victoria» را به عنوان PERSON علامت می‌گذارد. «هاب Santiago» هم «Santiago» را همین‌طور علامت می‌گذارد.

مدل زمینه لازم برای تشخیص «Apple» (شرکت) از «Apple Smith» (یک فرد) را ندارد. این شکاف ریشه اکثر مثبت‌های کاذب است. متن خبری به آن آموخت که اسامی خاص را افراد یا مکان‌ها بپندارد. متن تجاری این قانون را دائماً می‌شکند.

اثر پایین‌دستی

یک شرکت داده از Presidio برای تمیز کردن نظرسنجی‌های مشتری قبل از اشتراک‌گذاری استفاده کرد. یک حسابرسی چهار مشکل را کشف کرد. اول، ۴۰٪ از نظرسنجی‌ها برچسب‌های محصول به اشتباه حذف‌شده داشتند. دوم، برچسب‌های شهر از هر پاسخ حذف شده بود. سوم، اشاره‌های برند از مجموعه تحلیل پاک‌سازی شده بود. چهارم، احساس درباره محصولات خاص قابل خواندن نبود.

تیم تحلیل متن حذف‌شده‌ای دریافت کرد که تمام مراجع محصول از آن برداشته شده بود. نظرسنجی اصلی iPhone Pro و شارژر Apple را نام برده بود. آن معنا از بین رفته بود.

این شرکت حریم خصوصی را بهتر محافظت نمی‌کرد. داده را بدون کسب انطباق خراب می‌کرد. Presidio پس از حسابرسی جایگزین شد.

برای اینکه کیفیت تشخیص چگونه وضعیت قانونی شما را تحت تأثیر قرار می‌دهد، مرور انطباق را ببینید.

رویکرد بهتر: تشخیص ترکیبی

این مشکل منحصر به Presidio نیست. NER در سطح توکن بدون زمینه همیشه این مشکل را دارد. راه‌حل تشخیص آگاه از زمینه است.

چرا ترانسفورمرها کمک می‌کنند: مدلی مثل XLM-RoBERTa جمله کامل را می‌خواند. «Apple درآمدهایش را اعلام کرد» → Apple یک شرکت است. «Apple Smith به تیم پیوست» → Apple یک نام است. زمینه به شما می‌گوید کدام است.

این دقت را بهبود می‌بخشد در حالی که بازیابی را بالا نگه می‌دارد. مقایسه زیر را ببینید.

رویکرد	دقت	بازیابی
NER پیش‌فرض Presidio	۲۲.۷٪	~۸۵٪
فقط Regex	~۹۵٪	~۴۰٪
ترکیبی (Regex + NLP + Transformer)	~۸۵٪	~۸۰٪

رویکرد ترکیبی به دقت ۸۵٪ می‌رسد. یعنی نرخ مثبت کاذب ۱۵٪. بسیار بهتر از ۷۷.۳٪. برای اسناد تجاری، این شکاف اهمیت دارد.

پشته ترکیبی چهار مرحله دارد:

۱. لایه Regex: شناسه‌های ساختاریافته را پیدا می‌کند — ایمیل‌ها، شماره تلفن‌ها، SSN‌ها، IBAN‌ها. فرمت‌ها ثابت هستند، بنابراین مثبت‌های کاذب نادر است. ابتدا اجرا می‌شود.

۲. لایه NLP (spaCy): NER استاندارد برای افراد، شرکت‌ها، و مکان‌ها. بازیابی بالا، دقت پایین‌تر.

۳. لایه ترانسفورمر (XLM-RoBERTa): هر نتیجه NLP را با استفاده از زمینه جمله کامل دوباره امتیازدهی می‌کند. «Apple» در زمینه محصول امتیاز موجودیتش را از دست می‌دهد. «John» در متن شکایت آن را به دست می‌آورد.

۴. آستانه اطمینان: فقط نتایجی که بالاتر از یک امتیاز تعیین‌شده هستند به خروجی می‌رسند. آستانه را برای موارد استفاده تحلیتی بالا ببرید. برای شناسایی‌زدایی HIPAA آن را پایین بیاورید.

نتایج پس از تغییر

شرکت تحلیتی به تشخیص ترکیبی تغییر داد. دستاوردها روشن بود. مثبت‌های کاذب برچسب محصول از ۴۰٪ به ۳٪ کاهش یافت. مثبت‌های کاذب برچسب شهر تقریباً به صفر رسید. بازیابی هویت واقعی در ~۸۲٪ باقی ماند، کمی کمتر از ۸۵٪، اما دقت بهبود زیادی یافت.

نظرسنجی‌ها دوباره قابل استفاده شدند. «iPhone»، «Apple»، «Samsung»، و «Chicago» در متن باقی ماندند. نام‌های مشتریان در زمینه‌های شکایت به درستی حذف شدند.

تشخیص ترکیبی محاسبات بیشتری نیاز دارد. برای کارهای بزرگ، زمان اجرا کمی طولانی‌تر است. برای اکثر موارد استفاده تجاری، بهبود دقت ارزشش را دارد. شرکت می‌توانست دوباره تحلیل انجام دهد. این هدف اصلی داده‌های نظرسنجی بود.

درباره رویکرد تشخیص ما در مرور امنیتی بخوانید.

زمانی که نرخ مثبت کاذب بالا قابل قبول است

برخی موارد بازیابی را بر دقت ترجیح می‌دهند.

HIPAA Safe Harbor: از دست دادن یک مثبت واقعی نقض است. نرخ مثبت کاذب ۱۰٪ اگر PHI واقعی هرگز از دست نرود خوب است. حذف بیش از حد امن‌تر از حذف کمتر از حد لازم است.

بررسی حقوقی: از دست دادن یک مخاطب محرمانه ممکن است امتیاز را باطل کند. مثبت‌های کاذب نیاز به بررسی دارند اما مسئولیتی ایجاد نمی‌کنند.

تحلیتیک تجاری: حذف بیش از حد داده را بدون بهبود انطباق خراب می‌کند. اینجا دقت اهمیت بیشتری دارد. از رویکرد ترکیبی با آستانه اطمینان بالا استفاده کنید. این برچسب‌های برند و اصطلاحات شهر را در خروجی نگه می‌دارد. فقط نام‌های واقعی افراد حذف می‌شوند.

تعادل مناسب به مورد استفاده شما بستگی دارد. ابزارهایی که به شما اجازه تنظیم آستانه می‌دهند، کنترل را به دست شما می‌دهند. هیچ پیش‌فرض واحدی برای همه زمینه‌ها کار نمی‌کند.

برای سوالات رایج درباره آستانه‌ها و حالت‌های تشخیص، FAQ را ببینید.

نتیجه‌گیری

نرخ دقت ۲۲.۷٪ یعنی ۳ تا از ۴ تشخیص اشتباه است. برای اسناد تجاری، این خروجی را برای تحلیل غیرقابل استفاده می‌کند. همچنین اطمینان کاذب درباره انطباق می‌دهد.

تشخیص ترکیبی این را برطرف می‌کند. Regex، NLP، و امتیازدهی ترانسفورمر را ترکیب می‌کند. داده پس از ناشناس‌سازی مفید باقی می‌ماند. نام‌های واقعی افراد حذف می‌شوند. برچسب‌های برند، اصطلاحات شهر، و شناسه‌های محصول باقی می‌مانند.

اگر به خاطر مشکلات مثبت کاذب Presidio را ترک کردید، این مسیر پیشروی است. نه یک پیکربندی جدید از همان مدل. یک معماری متفاوت که برای زمینه‌های سند تجاری ساخته شده است.

منابع

معیار Priva PII 2024: ارزیابی دقت Presidio. تأییدشده-خارجی.

Microsoft Presidio: موجودیت‌های پشتیبانی‌شده و معماری مدل. تأییدشده-خارجی.

spaCy: داده‌های آموزشی en_core_web_lg و محدودیت‌ها. تأییدشده-خارجی.

مقالات مرتبط

فنی

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

مشکل دقت ۲۲.۷٪ Presidio