أرقام CPR الدنماركية: دليل الامتثال للائحة العامة لحماية البيانات
محدَّث لعام 2026
أصدرت هيئة حماية البيانات الدنماركية Datatilsynet 31 قراراً بموجب اللائحة العامة لحماية البيانات في عام 2024، تناول أربعة عشر منها بيانات الرعاية الصحية. يعكس هذا التركيز العالي حقيقتين: الدنمارك تُدير منظومة صحية وطنية ضخمة، والثغرات التقنية فيها تُسبب استمرار تسرب سجلات المرضى.
قاعدة رقم التحقق لأرقام CPR
رقم CPR هو الهوية الشخصية في الدنمارك. يتكون من 10 أرقام بصيغة DDMMYY-XXXX. الأرقام الستة الأولى هي تاريخ الميلاد، والأربعة الأخيرة رمز مع رقم تحقق.
يعتمد رقم التحقق على قاعدة المودولو 11:
- تُؤخذ الأرقام من 1 إلى 9.
- يُخصص لكل منها وزن: 4، 3، 2، 7، 6، 5، 4، 3، 2.
- يُضرب كل رقم في وزنه وتُجمع جميع النتائج.
- تُقسم على 11 وتُؤخذ البقية.
- بقية 0 → رقم التحقق هو 0.
- بقية 1 → الرقم غير صالح.
- بقية من 2 إلى 10 → رقم التحقق هو 11 ناقص البقية.
هذه القاعدة ضرورية لكل أداة تبحث عن أرقام CPR. فبعض السلاسل بصيغة DDMMYY-XXXX لا يمكن أن تكون صالحة قط. الأدوات التي تتجاهل هذه الخطوة تُعلّم التواريخ ورموز الفواتير والأرقام المرجعية كهويات حقيقية.
كشف مراجعة الهيئة لعام 2024 أن 67% من أدوات معالجة اللغة الطبيعية العامة تتجاهل هذا الاختبار. وهذه الثغرة هي الإخفاق التقني الأبرز في قضاياها المتعلقة بالرعاية الصحية.
السجلات الصحية الوطنية الخمسة في الدنمارك
تربط الدنمارك بيانات الصحة عبر خمسة سجلات وطنية، ويربطها معاً الرقم الشخصي:
- سجلات الخروج من المستشفيات (منذ 1977)
- بيانات الوصفات الطبية (منذ 1995)
- سجل السرطان (منذ 1943)
- سجل أسباب الوفاة (منذ 1970)
- تشخيصات الرعاية الأولية (منذ 1990)
يجعل هذا الترابط البحث الصحي الدنماركي متميزاً للغاية، لكنه يُشكّل في الوقت ذاته خطراً. إزالة الرقم الخام وحدها لا تكفي. مجموعة بيانات لا تزال تحمل العمر والجنس والتشخيص والسنة يمكنها إعادة تعريف الأشخاص — لا سيما المصابين بأمراض نادرة.
تُحدد توجيهات Datatilsynet لعام 2024 بشأن الاستخدام الثانوي لبيانات الصحة ثلاثة متطلبات.
توثيق خطوات معالجة البيانات: يستلزم الأمر سرد الحقول المُحذوفة والمُجمَّعة وحجم المجموعات في الناتج. لا تُفي ملاحظة سياساتية بهذا المعيار.
مراجعة خارجية للمجموعات الكبيرة: للمجموعات التي تتجاوز 5,000 شخص، توصي الهيئة بمراجعة تقنية مستقلة لخطوات إخفاء الهوية.
مطابقة البيانات للغرض المعلن: يجب أن تتناسب مجموعة البيانات مع الهدف البحثي المُصرّح به. وجدت الهيئة حالات استخدمت فيها فرق بحثية سجلات وطنية كاملة في حين كانت عينة أصغر كافية.
راجع دليل اكتشاف الهويات الوطنية الأوروبية للاطلاع على كيفية تطبيق قواعد التحقق على صيغ الهوية الأوروبية الأخرى.
ما كشفته قضايا 2024
تتشارك قضايا الرعاية الصحية الأربع عشرة ثلاثة أنماط شائعة للإخفاق.
تبادل بيانات البحث: يُرسل مستشفى مجموعة بيانات مرضى مُزالة هويتها إلى شريك أكاديمي لتدريب الذكاء الاصطناعي. تحتوي المجموعة على أجزاء من تاريخ الميلاد ورموز التشخيص وتواريخ العلاج. تخلص الهيئة إلى أن هذا المزيج يُعيد تعريف المرضى بأمراض نادرة. التشخيصات غير الشائعة تُضيّق نطاق المجموعة بسرعة.
خدمات الذكاء الاصطناعي من أطراف ثالثة: ترسل شركة تقنية صحية ملاحظات المرضى إلى خدمة ذكاء اصطناعي أمريكية لأعمال السجلات السريرية. الهويات الشخصية في تلك الملاحظات لم تُزَل أولاً. لا توجد آلية نقل صالحة.
ثغرات خط أنابيب التعرف الضوئي على الحروف (OCR): تعالج شركة تأمين نماذج PDF ممسوحة ضوئياً لمطالبات الإعاقة. يُحوّل أداة OCR الصور إلى نص، لكنها لا تُجري اختبارات التحقق على الناتج فتُفوّت هويات كثيرة.
كثيراً ما يُدرج OCR مسافات في منتصف الأرقام أو يُزيح الشرطة، فتفشل مطابقة النمط البسيطة على هذا الناتج. يجب أن يعمل الاكتشاف على نص OCR لا على مدخلات نظيفة فحسب. راجع دليل اكتشاف البيانات الشخصية في الصحة عبر OCR للاطلاع على خطوات معالجة الوثائق الممسوحة.
ثلاثة متطلبات تقنية لا غنى عنها
تُشكّل هذه العناصر الثلاثة الأساس للامتثال الدنماركي في قطاع الرعاية الصحية:
اختبارات التحقق على جميع النصوص: تطبيق اختبار المودولو 11 الكامل على كل سلسلة مرشحة، سواء في النص النظيف أو في ناتج OCR.
اكتشاف الأسماء باللغة الدنماركية: استخدام نموذج مدرب على النصوص الدنماركية. نموذج spaCy da_core_news أحد الخيارات المتاحة. يُخطئ النموذج الإنجليزي العام في الأسماء الدنماركية وأسماء المنظمات.
سجلات إخفاء الهوية: توثيق ما أُزيل وما جُمّع وحجم المجموعات في الناتج. تطلب الهيئة هذا التوثيق بصيغة تقنية لا كملاحظة سياساتية.
للاطلاع على بيانات تكلفة حوادث البيانات الصحية، راجع تحليل تكاليف انتهاكات الرعاية الصحية.