ما الذي تفتقده Presidio: أكثر من 220 نوعًا من الكيانات الأساسية لاكتشاف PII المتوافق مع GDPR
تأتي Microsoft Presidio مع حوالي 40 معرّفًا افتراضيًا. بالنسبة لنشرها في الولايات المتحدة التي تتعامل مع مستندات تركز على الولايات المتحدة، يغطي ذلك الفئات الأساسية: SSNs، جوازات السفر الأمريكية، رخص القيادة الأمريكية، بطاقات الائتمان، عناوين البريد الإلكتروني، أرقام الهواتف، وأسماء الأشخاص.
بالنسبة لنشرها في الاتحاد الأوروبي، فإن فجوة التغطية كبيرة. ينطبق GDPR على جميع البيانات الشخصية في الاتحاد الأوروبي بغض النظر عن الجنسية. تحتاج المنظمات الأوروبية التي تعالج بيانات مواطنيها إلى معرّفات لا توفرها Presidio بشكل افتراضي.
مكتبة الكيانات الافتراضية في Presidio
تشمل المعرفات الافتراضية لـ Presidio:
المعرفات التي تركز على الولايات المتحدة:
- رقم الضمان الاجتماعي الأمريكي (SSN)
- رقم جواز السفر الأمريكي
- رقم رخصة القيادة الأمريكية (تنسيقات متعددة حسب الولاية)
- رقم حساب البنك الأمريكي
- رقم ITIN (رقم تعريف دافع الضرائب الفردي) الأمريكي
- رقم الترخيص الطبي الأمريكي
المعرفات العالمية:
- عنوان البريد الإلكتروني
- رقم الهاتف (أولوية تنسيق يركز على الولايات المتحدة)
- عنوان IP
- رقم بطاقة الائتمان (خوارزمية Luhn)
- عنوان محفظة العملات المشفرة
- URL
كيانات النص العامة:
- PERSON (معتمد على NER)
- LOCATION (معتمد على NER)
- ORGANIZATION (معتمد على NER)
- DATE_TIME (معتمد على NER)
تغطية دولية محدودة:
- رقم NHS في المملكة المتحدة
- رقم التأمين الوطني في المملكة المتحدة (NINO)
- معرفات الكيانات المالية (بعضها)
الإجمالي: ~40 معرّفًا
ما تحتاجه المنظمات الأوروبية فعليًا
المعرفات المالية: يظهر IBAN (رقم الحساب البنكي الدولي) في كل مستند تجاري في الاتحاد الأوروبي يتعلق بالمدفوعات، التحويلات البنكية، الفواتير، والرواتب. تختلف تنسيقات IBAN حسب الدولة ولكنها تتبع معيارًا دوليًا (ISO 13616). لا تحتوي Presidio على معرّف IBAN افتراضي.
تقوم شركة fintech ألمانية تعالج سجلات مدفوعات العملاء بمعالجة أرقام IBAN في كل مستند معاملة. بدون التعرف على IBAN، تتم معالجة هذه المستندات مع تنشيط اكتشاف بطاقة الائتمان (الكشف عن أرقام البطاقات) ولكن يتم تجاهل حقول IBAN (المعرف الرئيسي للمدفوعات في الاتحاد الأوروبي) تمامًا.
المعرفات الضريبية الوطنية:
- رقم التعريف الضريبي الألماني: 11 رقمًا
- NIR الفرنسي (رقم التسجيل في السجل): 13 حرفًا أبجديًا رقميًا
- Codice Fiscale الإيطالي: 16 حرفًا أبجديًا رقميًا مع تحقق هيكلي
- NIF/NIE الإسباني: 9 أحرف مع لاحقة/سابقة حرفية
- BSN الهولندي: 9 أرقام مع تحقق من 11
لا يوجد أي منها في مكتبة الكيانات الافتراضية لـ Presidio. إن معالج الرواتب في الاتحاد الأوروبي الذي يتعامل مع مستندات الموظفين من دول أعضاء متعددة يكون فعليًا أعمى عن أكثر معرفاتهم المالية حساسية.
المعرفات الصحية الوطنية:
- رقم NHS في المملكة المتحدة: 10 أرقام مع تحقق من modulus-11
- رقم الضمان الاجتماعي الفرنسي (NIR): يعمل أيضًا كمعرف صحي
- رقم Krankenkasse الألماني: أبجدي رقمي، خاص بشركة التأمين
- Codice Fiscale الإيطالي: يستخدم أيضًا كمعرف صحي
- BSN في هولندا: يستخدم أيضًا للتأمين الصحي
تحتاج المنظمات الصحية عبر الاتحاد الأوروبي إلى هذه المعرفات لحماية بيانات الصحة المعادلة لـ HIPAA. توفر Presidio رقم NHS في المملكة المتحدة لكنها تفوت معرفات الصحة الأوروبية القارية.
تنسيقات رخص القيادة في الاتحاد الأوروبي: تمتلك Presidio معرّفات رخص القيادة الأمريكية (محددة حسب الولاية). يتم توحيد تنسيقات رخص القيادة في الاتحاد الأوروبي بموجب التوجيه 2006/126/EC ولكنها تختلف حسب الدولة العضو في هيكلها الأبجدي الرقمي. لا توجد معرّفات لرخص القيادة في الاتحاد الأوروبي في الافتراضات الافتراضية لـ Presidio.
أرقام تسجيل ضريبة القيمة المضافة: تظهر أرقام ضريبة القيمة المضافة في الاتحاد الأوروبي في كل معاملة تجارية. التنسيق: رمز الدولة (حرفان) + 8-12 رقمًا أبجديًا رقميًا. لا تحتوي Presidio على معرّف رقم ضريبة القيمة المضافة. بالنسبة للشركات في الاتحاد الأوروبي التي تشارك الفواتير، العقود، والمستندات التجارية، تعتبر أرقام ضريبة القيمة المضافة معرفات تربط الكيانات التجارية المسجلة ومديريها.
تنسيقات جواز السفر في الاتحاد الأوروبي: تتعرف Presidio على جوازات السفر الأمريكية، لكن تنسيقات جواز السفر في الاتحاد الأوروبي (خاصة تنسيق المنطقة القابلة للقراءة آليًا) غير مغطاة.
تكلفة تطوير معرّف مخصص
عندما تقوم المنظمات الأوروبية بنشر Presidio وتكتشف فجوة تغطية الكيانات، يكون الرد عادةً هو تطوير معرّف مخصص. التكلفة:
وقت تطوير كل معرّف:
- البحث عن تنسيق المعرف: 1-2 ساعة
- كتابة فئة PatternRecognizer بلغة بايثون: 2-4 ساعات
- تنفيذ regex مع منطق التحقق: 2-4 ساعات
- تكوين كلمات السياق لتحسين الدقة: 1-2 ساعة
- كتابة الاختبارات: 2-3 ساعات
- التكامل والاختبار في النشر: 1-2 ساعة
لكل معرّف: 9-17 ساعة.
لشركة fintech ألمانية تحتاج إلى IBAN + Steuer-ID + رخصة قيادة الاتحاد الأوروبي + ضريبة القيمة المضافة الألمانية + IBAN:
- 4 معرّفات مخصصة × 13 ساعة في المتوسط = 52 ساعة هندسية
- بسعر 100 يورو/ساعة: 5200 يورو في تطوير المعرفات المخصصة
بالإضافة إلى الصيانة المستمرة مع تغير التنسيقات، وظهور حالات اختبار جديدة، وتحديثات واجهة برمجة التطبيقات لـ Presidio التي تتطلب تعديلات على المعرفات.
إجمالي التكلفة لتغطية GDPR في الاتحاد الأوروبي على قمة Presidio: 5200 يورو + صيانة مستمرة
البديل: مكتبات الكيانات المدارة
تقوم anonym.legal بتوسيع أساس Presidio مع أكثر من 285 نوعًا من الكيانات التي تحتفظ بها فريق التطوير - بما في ذلك المعرفات الخاصة بالاتحاد الأوروبي التي تفوتها الافتراضات الافتراضية لـ Presidio:
نقاط التغطية البارزة بخلاف الافتراضات الافتراضية لـ Presidio:
- IBAN (جميع تنسيقات دول الاتحاد الأوروبي)
- معرفات الضرائب لدول الاتحاد الأوروبي (بما في ذلك Steuer-ID، NIR، Codice Fiscale، NIF/NIE، BSN، PESEL، وغيرها)
- المعرفات الصحية الوطنية في الاتحاد الأوروبي
- أرقام ضريبة القيمة المضافة (تنسيق الاتحاد الأوروبي)
- تنسيقات رخص القيادة في الاتحاد الأوروبي
- تنسيقات جواز السفر الأوروبية
- جميع 48 تنوعًا للكيانات المدعومة باللغات
الصيانة: يتم دفع تحديثات مكتبة الكيانات كجزء من الخدمة المدارة. عندما تقدم ألمانيا تنسيق معرف ضريبي جديد، يحصل المستخدمون على المعرف دون تقديم طلب سحب.
التوسيع المخصص: بالنسبة للمعرفات الخاصة بالمنظمات غير الموجودة في المكتبة، يسمح منشئ الكيانات المخصص بإضافة الأنماط دون الحاجة إلى كود بايثون.
مثال شركة Fintech الألمانية
تحتاج شركة fintech ألمانية إلى اكتشاف IBANs، BICs، أرقام الضرائب الألمانية (Steuer-ID)، وأرقام التسجيل التجاري الألمانية (Handelsregisternummer) في مستندات العملاء.
معدل اكتشاف Presidio الافتراضي لهذه الأنواع الأربعة من الكيانات: 0%
ليس دقة منخفضة، وليس إيجابيات كاذبة - صفر اكتشافات. لا تظهر أي من الأنواع الأربعة من الكيانات في مكتبة الكيانات الافتراضية لـ Presidio.
كتابة معرّفات مخصصة: 4 معرّفات × 13 ساعة = 52 ساعة = 5200 يورو بمعدلات الهندسة.
استخدام مكتبة الكيانات المدارة مع تغطية جميع الأربعة: 180 يورو/سنة (الخطة الاحترافية).
تكلفة تحقيق اكتشاف متوافق مع GDPR لهذه المعرفات المالية الألمانية:
- مسار Presidio: 5200 يورو هندسة + تكاليف تشغيل Presidio
- مسار الخدمة المدارة: 180 يورو/سنة، اكتشاف جميع الأربعة من الصندوق
الفجوة هي 28 ضعفًا في السنة الأولى. مع كل سنة من التشغيل، يضيف وقت الهندسة لصيانة المعرفات المخصصة إلى تكلفة Presidio بينما تظل تكلفة الخدمة المدارة ثابتة.
الخاتمة
تخدم معرّفات Presidio الافتراضية البالغة حوالي 40 حالة استخدام تركز على الولايات المتحدة بشكل جيد. بالنسبة لنشرها في الاتحاد الأوروبي التي تتطلب الامتثال لـ GDPR عبر معرفات محددة حسب الدول الأعضاء، فإن التغطية الافتراضية غير كافية. يتم ملء الفجوة إما من خلال تطوير معرّفات مخصصة (مكلفة، تستغرق وقتًا طويلاً) أو خدمة مدارة تحافظ على تغطية الكيانات في الاتحاد الأوروبي كجزء من الاشتراك.
بالنسبة للمنظمات الأوروبية حيث يكون الامتثال غير قابل للتفاوض وموارد الهندسة محدودة، فإن مكتبة الكيانات الأوروبية الجاهزة من الخدمة المدارة تلغي مشروع تطوير مخصص يستغرق أكثر من 50 ساعة قبل إخفاء المستند الأول.
المصادر: