هزینه پنهان مثبت‌های کاذب در ابزارهای تشخیص اطلاعات شناسایی شخصی

به‌روزرسانی برای ۲۰۲۶

بیشتر ابزارهای تشخیص اطلاعات شناسایی شخصی بر اساس فراخوانی ارزیابی می‌شوند. فراخوانی اندازه می‌گیرد که چه نسبتی از اطلاعات شناسایی شخصی واقعی توسط ابزار یافته می‌شود. اما دقت هم به همان اندازه اهمیت دارد. دقت اندازه می‌گیرد که چه نسبتی از هشدارهای ابزار واقعاً اطلاعات شناسایی شخصی هستند.

دقت پایین پرهزینه است. سیستمی با فراخوانی ۹۵ درصد و دقت ۲۲.۷ درصد بیشتر اطلاعات شناسایی شخصی را شناسایی می‌کند. اما به ازای هر موجودیت واقعی که علامت‌گذاری می‌کند، ۳.۴ هشدار اشتباه هم ایجاد می‌کند. در یک مجموعه داده با ۱۰٬۰۰۰ موجودیت واقعی، این سیستم تقریباً ۴۴٬۰۰۰ هشدار تولید می‌کند. حدود ۳۴٬۰۰۰ تا از آن‌ها اشتباه هستند. هر کدام برای بررسی زمان می‌برد یا باعث حذف بیش از حد می‌شود.

این هزینه مثبت‌های کاذب است. این سربار کاری است که هر تیم هنگام اجرای سیستم تشخیص اطلاعات شناسایی شخصی با فراخوانی بالا و دقت پایین در مقیاس می‌پردازد. هزینه مستقیم، زمان صرف‌شده برای بررسی است. هزینه غیرمستقیم بدتر است: اسناد بیش از حد حذف‌شده داده‌های مفید را پنهان می‌کنند، کار را کند می‌کنند، و اعتماد به ابزار را از بین می‌برند.

آنچه مسئله شماره ۱۰۷۱ Presidio نشان می‌دهد

گفتگوی GitHub پروژه Microsoft Presidio شماره ۱۰۷۱ (2024) یک الگوی خاص را ثبت می‌کند. شناساگرهای TFN (شماره پرونده مالیاتی) و PCI از اعتبارسنجی جمع کنترلی استفاده می‌کنند. اعدادی که جمع کنترلی را پشت سر می‌گذارند، امتیاز ۱.۰ — حداکثر اطمینان — دریافت می‌کنند. هیچ زمینه‌ای از اطلاعات شناسایی شخصی لازم نیست.

علت ریشه‌ای این است: بررسی کلمات زمینه‌ای پس از مرحله جمع کنترلی اجرا می‌شود، نه پیش از آن. عددی که جمع کنترلی را پشت سر می‌گذارد، صرف‌نظر از متن اطراف، امتیاز بالا می‌گیرد. در صفحات گسترده مالی، مجموعه داده‌های علمی، یا فایل‌های لاگ، این موضوع خروجی را با هشدارهای اشتباه پر می‌کند. فیلتر کردن بر اساس آستانه امتیاز آن را برطرف نمی‌کند. امتیازها از قبل در بالاترین حد هستند.

یک الگوی دوم در مسئله Presidio شماره ۹۹۹ ظاهر می‌شود. تقطیع کلمات آلمانی برای اسامی مرکب درست عمل نمی‌کند. کلماتی مثل Bundesbehörde (اداره فدرال) می‌توانند اشتباه تقسیم شوند و به عنوان اسامی شخصی برچسب‌گذاری شوند. این موضوع در هر سند آلمانی‌زبانی نویز اضافه می‌کند.

مشکل دقت ۲۲.۷ درصدی

Alvaro و همکاران (2024) Presidio را بر روی مجموعه داده‌های سازمانی چندزبانه آزمودند. آن‌ها دقت ۲۲.۷ درصدی یافتند. در اسناد واقعی، کمتر از یک هشدار از هر چهار هشدار Presidio، یک موجودیت واقعی اطلاعات شناسایی شخصی است. این با آنچه متخصصان گزارش می‌دهند مطابقت دارد. ابزاری که فقط برای فراخوانی تنظیم شده، برای استفاده در محیط تولید نویز زیادی تولید می‌کند.

یک مطالعه DICOM در ۲۰۲۴ نشان داد که بالا بردن score_threshold به ۰.۷ هنوز هشدارهای اشتباه را در ۳۸ مورد از ۳۹ تصویر پزشکی باقی گذاشت. آستانه‌ای که نویز را در یک نوع سند پاک می‌کند، در نوع دیگر سند باعث خطاهای تشخیص می‌شود.

این فقط مشکل Presidio نیست. هر آستانه ثابتی یک مبادله اجباری ایجاد می‌کند. آستانه بالا نویز را کاهش می‌دهد اما خطا را افزایش می‌دهد. آستانه پایین فراخوانی را بالا می‌برد اما تعداد هشدارها را افزایش می‌دهد.

امتیازدهی آگاه به زمینه

راه‌حل امتیازدهی اطمینان آگاه به زمینه است. به جای امتیازدهی بر اساس تطابق الگو به تنهایی، سیستم اطمینان را افزایش می‌دهد وقتی کلمات زمینه‌ای در نزدیکی تطابق وجود دارند. همچنین امتیاز را کاهش می‌دهد وقتی زمینه وجود ندارد.

برای تشخیص TFN: کلماتی مثل «tax file number»، «TFN»، یا «Australian tax» در نزدیکی یک عدد، امتیاز آن را افزایش می‌دهند. عددی که جمع کنترلی را پشت سر می‌گذارد اما کلمات زمینه‌ای نزدیکی ندارد، زیر آستانه بررسی امتیاز می‌گیرد. هشدار اشتباه سرکوب می‌شود.

برای نویز چندزبانه: انواع موجودیت‌های مرتبط با کشورهای خاص می‌توانند به اسناد در زبان متناسب محدود شوند. یک شناساگر TFN که به زبان انگلیسی و انگلیسی-استرالیایی محدود شده، نویز را حذف می‌کند. اجرای آن بر محتوای آلمانی بدون محدودیت منبع مشکل است.

لایه سوم در یک سیستم ترکیبی یک مدل ترانسفورمر است. کل پنجره زمینه اطراف هر کاندیدا را می‌خواند. «John Smith, Patient ID 12345» را از یک کد محصول که با الگوی نام مطابقت دارد تشخیص می‌دهد. زمینه ابهامی را برطرف می‌کند که regex و جمع‌های کنترلی نمی‌توانند.

ببینید چگونه موتور تشخیص سه‌لایه دقت را در مقیاس مدیریت می‌کند. راهنمای تشخیص اطلاعات شناسایی شخصی چندزبانه توضیح می‌دهد که نویز چندزبانه چگونه بر انطباق GDPR تأثیر می‌گذارد.

مراحل عملی

قبل از استقرار هر ابزار تشخیص اطلاعات شناسایی شخصی، دقت آن را اندازه بگیرید — نه فقط فراخوانی را.

ابزار را بر روی یک مجموعه سند با اطلاعات شناسایی شخصی شناخته‌شده و اطلاعات غیرشناسایی شناخته‌شده اجرا کنید. هشدارها را در هر دو گروه بشمارید. true_positives / (true_positives + false_positives) را محاسبه کنید. این عدد بار بررسی را قبل از تعهد به استقرار آشکار می‌کند.

برای تیم‌هایی که از Presidio استفاده می‌کنند، تحلیل توزیع امتیاز یک مسیر سریع است. نمونه‌ای از تشخیص‌ها با امتیازهای اطمینانشان را خروجی بگیرید. بشمارید چه تعداد زیر ۰.۶، ۰.۷، و ۰.۸ امتیاز دارند. سهم بزرگی از هشدارهای با امتیاز بالا در متن تمیز نشان‌دهنده شکاف زمینه است، نه مشکل آستانه. نمای کلی انطباق امنیتی توضیح می‌دهد که چگونه این موضوع را در یک DPIA مستند کنید.

منابع

گفتگوی GitHub پروژه Microsoft Presidio شماره ۱۰۷۱: مثبت‌های کاذب سیستماتیک
مسئله GitHub پروژه Microsoft Presidio شماره ۹۹۹: الگوهای مثبت کاذب در زبان آلمانی
Alvaro و همکاران (2024): دقت Presidio در مجموعه داده‌های سازمانی چندزبانه
تحلیل آستانه امتیاز DICOM — انجمن Microsoft Presidio

مقالات مرتبط

فنی

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

هزینه پنهان مثبت‌های کاذب در ابزارهای تشخیص اطلاعات شخصی

هزینه پنهان مثبت‌های کاذب در ابزارهای تشخیص اطلاعات شناسایی شخصی

آنچه مسئله شماره ۱۰۷۱ Presidio نشان می‌دهد

مشکل دقت ۲۲.۷ درصدی

امتیازدهی آگاه به زمینه

مراحل عملی

منابع

مقالات مرتبط

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

آماده‌اید داده‌های خود را محافظت کنید؟

هزینه پنهان مثبت‌های کاذب در ابزارهای تشخیص اطلاعات شخصی

هزینه پنهان مثبت‌های کاذب در ابزارهای تشخیص اطلاعات شناسایی شخصی

آنچه مسئله شماره ۱۰۷۱ Presidio نشان می‌دهد

مشکل دقت ۲۲.۷ درصدی

امتیازدهی آگاه به زمینه

مراحل عملی

منابع

مقالات مرتبط

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

آماده‌اید داده‌های خود را محافظت کنید؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow