أصدرت Datatilsynet الدنماركية 31 قراراً لتطبيق GDPR في 2024، منها 14 تتعلق تحديداً بأنظمة بيانات الرعاية الصحية — تركّز يعكس المخاطر العالية للبنية التحتية الشاملة للبيانات الصحية الوطنية في الدنمارك والإخفاقات التقنية التي تُعرّض بيانات المرضى للخطر مراراً وتكراراً.
رقم CPR: متطلب Modulus-11
رقم CPR (Det Centrale Personregister-nummer) — 10 أرقام، تنسيق DDMMYY-XXXX — يُرمّز تاريخ الميلاد (الأرقام 1-6) ورقماً تسلسلياً مع رقم تحقق (الأرقام 7-10). يُتحقق من الرقم الأخير باستخدام حساب modulus-11:
التحقق بـ modulus-11: اضرب الأرقام 1-9 بأوزان (4,3,2,7,6,5,4,3,2)، اجمع، خذ modulo 11. إن كانت النتيجة 0، فرقم التحقق = 0. إن كانت النتيجة 1، فالـ CPR غير صالح (لا يوجد رقم تحقق صالح لهذه البادئة). وإلا فرقم التحقق = 11 ناقص النتيجة.
يخلق هذا الخاصية المهمة المتمثلة في أن بعض الأنماط DDMMYY-XXXX لا يمكن أن تكون أرقام CPR صالحة أبداً (تلك التي ينتج عنها حساب modulo-11 القيمة 1). الأدوات التي تطابق أنماط 10 أرقام بتنسيق DDMMYY-XXXX دون التحقق بـ modulus-11 تولّد إيجابيات زائفة من سلاسل التواريخ والأرقام المرجعية ورموز الفواتير.
67% من أدوات NLP العامة تفتقر إلى تطبيق CPR modulus-11 (Datatilsynet 2024). هذا الإخفاق في الاكتشاف هو الإخفاق التقني الأكثر استشهاداً في قرارات تطبيق Datatilsynet في الرعاية الصحية.
النظام البيئي لأبحاث البيانات الصحية الدنماركية
سجلات الصحة الدنماركية — من أكثر مجموعات البيانات الصحية الطولية اكتمالاً في العالم — مترابطة من خلال رقم CPR. يُمكّن CPR الباحثين من ربط:
- سجلات الخروج من المستشفيات (منذ 1977)
- قاعدة بيانات الوصفات الطبية (منذ 1995)
- سجل السرطان (منذ 1943)
- سجل أسباب الوفاة (منذ 1970)
- بيانات تشخيص الرعاية الأولية (منذ 1990)
يجعل هذا الترابط البحث الصحي الدنماركي رفيع المستوى عالمياً لكنه يخلق خطر إعادة التعريف الذي تأخذه Datatilsynet بجدية: حتى مجموعات البيانات "المُزالة الهوية" التي تحتفظ بسمات مرتبطة بـ CPR (العمر والجنس والتشخيص والسنة) يمكن إعادة تعريفها.
تستلزم توجيهات Datatilsynet لعام 2024 بشأن الاستخدام الثانوي للبيانات الصحية أن تُثبت المنظمات:
توثيق التجهيل التقني: لا بيان سياسة، بل توثيق تقني يُبيّن بالضبط أي المعرّفات جرى إزالتها، وأي شبه المعرّفات جرى تعميمها، وما مستوى k-anonymity المحقق في مجموعة البيانات الناتجة.
التحقق من الطرف الثالث لمجموعات البيانات البحثية: لمجموعات البيانات البحثية التي تضم أكثر من 5,000 فرد، توصي Datatilsynet بمراجعة تقنية مستقلة لإجراءات التجهيل.
تقليل البيانات: نطاق مجموعة البيانات البحثية يجب أن يتوافق مع سؤال البحث الموثق. وجدت Datatilsynet حالات متعددة استخدم فيها الباحثون سجلات وطنية كاملة حين كانت عينة عشوائية أو مجموعة بيانات محدودة جغرافياً ستؤدي الغرض البحثي.
نتائج تطبيق الرعاية الصحية المحددة
تُوثّق قرارات تطبيق Datatilsynet الـ 14 في الرعاية الصحية لعام 2024 إخفاقات تقنية متكررة:
نمط الحالة 1: تشارك مستشفى مجموعة بيانات مرضى "مُزالة الهوية" مع شريك بحثي أكاديمي لتدريب الذكاء الاصطناعي. تحتوي مجموعة البيانات على مكوّنات تاريخ ميلاد CPR ورموز التشخيص وتواريخ العلاج. وجدت Datatilsynet أن المجموعة تُمكّن من إعادة تعريف مرضى الأمراض النادرة (مشكلة المقام الصغير — التشخيصات غير المعتادة تُضيّق التعريف بشكل كبير).
نمط الحالة 2: تُعالج شركة تقنية صحية ناشئة بيانات المرضى الدنماركيين عبر واجهة برمجية أمريكية للذكاء الاصطناعي لدعم التوثيق السريري. تُرسَل أرقام CPR في الملاحظات الطبية إلى خوادم أمريكية دون آلية نقل كافية ودون الكشف عن CPR وإزالتها مسبقاً.
نمط الحالة 3: تُعالج شركة تأمين بيانات الشهادات الطبية لمطالبات الإعاقة. لا تُكتشف أرقام CPR في شهادات PDF الممسوحة ضوئياً من قِبَل خط معالجة OCR+استخراج للشركة (يحوّل OCR الصورة إلى نص؛ يُعالَج النص لكن دون التحقق من CPR، تُفوَّت كثير من أرقام CPR في مخرج OCR بسبب عدم انتظام التنسيق).
يُعدّ الإخفاق في OCR+الاستخراج شائعاً بشكل خاص في سياقات الرعاية الصحية حيث تُستقبَل الوثائق كصور ممسوحة. يجب أن يعمل اكتشاف CPR على نص مُعالَج بـ OCR، الذي كثيراً ما يُدخل تناقضات في التنسيق (مسافات مُدرَجة وسط الرقم، أخطاء في موضع الشرطة) تُعطّل مطابقة الأنماط البسيطة.
للامتثال للـ GDPR الدنماركي في الرعاية الصحية: اكتشاف CPR مع التحقق بـ modulus-11 في النصوص النظيفة والمخرجات المُعالَجة بـ OCR، ونماذج NER للدنماركية (spaCy da_core_news)، وتوثيق التجهيل التقني المستوفي لمعايير الاستخدام الثانوي لـ Datatilsynet لعام 2024 هي الحد الأدنى من المتطلبات.
المصادر: