بازگشت به وبلاگGDPR و انطباق

چرا ابزارهای PII خود میزبان برای حسابرسی‌های سازگاری کار نمی‌کنند

spaCy 3.4.4 نتایج متفاوتی نسبت به spaCy 3.5.1 تولید می‌کند. یک شرکت خدمات مالی توسط این تفاوت بیش از 180 شناسه اشتباهی قفل شده است.

April 21, 20266 دقیقه مطالعه
compliance auditenvironment consistencyspaCy versionsself-hosted PIIreproducible anonymization

مشکل تناسق NER

اگر به‌طور محلی PII را شناسایی می‌کنید، باید برای هر به‌روزرسانی مدل، تمام داده‌های قدیمی را دوباره پردازش کنید.

در سپتامبر 2025، یک شرکت خدمات مالی بزرگ این مشکل را متوجه شد:

  • spaCy 3.4.4 برای پردازش نتایج اولیه استفاده می‌شد
  • spaCy 3.5.1 برای پردازش جدید استفاده شد
  • این دو نسخه نتایج مختلف تولید کردند

نتیجه؟ بیش از 180 مشتری شناسایی شده‌ای که از قبل پردازش شده بودند، اکنون "تطابق ندارند".

مقیاس مسئله

حسابرسان ایمنی شامل شدند:

  • بررسی کنید که تمام مشتری‌های شناسایی شده دوباره محرمانه شده‌اند
  • تأیید کنید که تغییرات مدل‌ها باعث اختلاف در نتایج نشده است
  • اطمینان حاصل کنید که شامل‌ها حقوق مالکانه مختلفی ندارند

برای سازمان‌هایی که میلیون‌ها رکورد محلی دارند، این یک تابستان طولانی شد.

راه‌حل صحیح

بجای پردازش محلی PII و نگرانی درباره تناسق:

  1. استفاده کنید از سرور مرکزی: Presidio یا سرویس فروش شده
  2. یک ورژن ثابت نگه دارید: تغییرات مدل به ندرت اتفاق می‌افتد
  3. محرمانه‌سازی، نه شناسایی: اگر هرگز PII را ذخیره نکنید، نیاز به حسابرسی ندارید

چگونه anonym.legal حل می‌کند

anonym.legal از یک سرور Presidio استفاده می‌کند که معیارهای شناسایی را ثابت می‌نگه‌دارد:

  • تمام تغییرات مدل توسط ما مدیریت می‌شود
  • شما هیچ محاسبه محلی انجام نمی‌دهید
  • تناسق تضمین شده است

نتیجه: دیگر نیاز به حسابرسی تناسق ندارید. حتی بهتر: اگر داده‌های محرمانه‌شده‌ی شما هرگز شامل شناسایی‌های بدون محرمانه نشود، دیگر NER مهم نیست.

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.