مشکل تناسق NER
اگر بهطور محلی PII را شناسایی میکنید، باید برای هر بهروزرسانی مدل، تمام دادههای قدیمی را دوباره پردازش کنید.
در سپتامبر 2025، یک شرکت خدمات مالی بزرگ این مشکل را متوجه شد:
- spaCy 3.4.4 برای پردازش نتایج اولیه استفاده میشد
- spaCy 3.5.1 برای پردازش جدید استفاده شد
- این دو نسخه نتایج مختلف تولید کردند
نتیجه؟ بیش از 180 مشتری شناسایی شدهای که از قبل پردازش شده بودند، اکنون "تطابق ندارند".
مقیاس مسئله
حسابرسان ایمنی شامل شدند:
- بررسی کنید که تمام مشتریهای شناسایی شده دوباره محرمانه شدهاند
- تأیید کنید که تغییرات مدلها باعث اختلاف در نتایج نشده است
- اطمینان حاصل کنید که شاملها حقوق مالکانه مختلفی ندارند
برای سازمانهایی که میلیونها رکورد محلی دارند، این یک تابستان طولانی شد.
راهحل صحیح
بجای پردازش محلی PII و نگرانی درباره تناسق:
- استفاده کنید از سرور مرکزی: Presidio یا سرویس فروش شده
- یک ورژن ثابت نگه دارید: تغییرات مدل به ندرت اتفاق میافتد
- محرمانهسازی، نه شناسایی: اگر هرگز PII را ذخیره نکنید، نیاز به حسابرسی ندارید
چگونه anonym.legal حل میکند
anonym.legal از یک سرور Presidio استفاده میکند که معیارهای شناسایی را ثابت مینگهدارد:
- تمام تغییرات مدل توسط ما مدیریت میشود
- شما هیچ محاسبه محلی انجام نمیدهید
- تناسق تضمین شده است
نتیجه: دیگر نیاز به حسابرسی تناسق ندارید. حتی بهتر: اگر دادههای محرمانهشدهی شما هرگز شامل شناساییهای بدون محرمانه نشود، دیگر NER مهم نیست.