ڈنمارک CPR نمبر: GDPR تعمیل گائیڈ
2026 کے لیے اپ ڈیٹ
ڈنمارک کے ڈیٹا واچ ڈاگ Datatilsynet نے 2024 میں 31 GDPR فیصلے جاری کیے۔ چودہ صحت نگہداشت ڈیٹا سے متعلق تھے۔ یہ زیادہ حصہ دو حقائق ظاہر کرتا ہے: ڈنمارک ایک بڑا قومی صحت نظام چلاتا ہے، اور اس نظام میں تکنیکی خلا مریضوں کے ریکارڈ کو بے نقاب کرتے رہتے ہیں۔
CPR نمبروں کے لیے چیک-ہندسہ اصول
CPR نمبر ڈنمارک کا ذاتی ID ہے۔ یہ DDMMYY-XXXX فارمیٹ میں 10 ہندسے ہیں۔ پہلے چھ ہندسے تاریخ پیدائش ہیں۔ آخری چار ایک کوڈ اور ایک چیک ہندسہ ہیں۔
چیک ہندسہ modulus-11 اصول استعمال کرتا ہے:
- ہندسے 1 سے 9 لیں۔
- ہر ایک کو وزن دیں: 4، 3، 2، 7، 6، 5، 4، 3، 2۔
- ہر ہندسے کو اپنے وزن سے ضرب دیں۔ تمام نتائج جمع کریں۔
- 11 سے تقسیم کریں۔ باقی نوٹ کریں۔
- باقی 0 → چیک ہندسہ 0 ہے۔
- باقی 1 → نمبر درست نہیں ہے۔
- باقی 2–10 → چیک ہندسہ 11 مائنس باقی ہے۔
یہ اصول کسی بھی ٹول کے لیے اہم ہے جو CPR نمبروں کو اسکین کرتا ہے۔ کچھ DDMMYY-XXXX تاریں کبھی درست نہیں ہو سکتیں۔ جو ٹولز یہ مرحلہ چھوڑ دیتے ہیں وہ تاریخوں، انوائس کوڈز، اور حوالہ نمبروں کو حقیقی IDs کے طور پر نشان زد کرتے ہیں۔
aتھارٹی کے 2024 جائزے نے پایا کہ 67% عام NLP ٹولز یہ چیک چھوڑ دیتے ہیں۔ یہ خلا اس کے صحت نگہداشت کیسز میں سب سے اوپر تکنیکی ناکامی ہے۔
ڈنمارک کی پانچ صحت رجسٹریز
ڈنمارک پانچ قومی رجسٹریز میں صحت ڈیٹا کو لنک کرتا ہے۔ ذاتی ID سبھی پانچ کو آپس میں جوڑتا ہے۔
- ہسپتال خارج ہونے کے ریکارڈ (1977 سے)
- نسخے کا ڈیٹا (1995 سے)
- کینسر رجسٹری (1943 سے)
- موت کی وجہ رجسٹری (1970 سے)
- پرائمری کیئر تشخیص (1990 سے)
اس سے ڈنمارکی صحت تحقیق بہت مضبوط ہوتی ہے۔ یہ ایک خطرہ بھی پیدا کرتا ہے۔ خام ID کو ہٹانا کافی نہیں ہے۔ ایک ڈیٹاسیٹ جو اب بھی عمر، جنس، تشخیص، اور سال رکھتا ہے لوگوں کو دوبارہ بے نقاب کر سکتا ہے — خاص طور پر نایاب حالتوں والے۔
Datailsynet کی ثانوی صحت ڈیٹا استعمال پر 2024 رہنمائی تین ضروریات مقرر کرتی ہے۔
لکھ کر بتائیں کہ آپ نے ڈیٹا سے کیا کیا: فہرست بنائیں کہ آپ نے کون سے فیلڈ ہٹائے، کون سے آپ نے گول کیے یا گروپ کیے، اور آؤٹ پٹ کیا گروپ سائز حاصل کرتا ہے۔ ایک پالیسی نوٹ اس معیار کو پورا نہیں کرتا۔
بڑے سیٹس کے لیے باہری جائزہ حاصل کریں: 5,000 سے زیادہ لوگوں والے ڈیٹاسیٹس کے لیے، اتھارٹی de-identification مراحل کا ایک آزاد تکنیکی جائزہ تجویز کرتی ہے۔
ڈیٹا کو سوال سے ملائیں: ڈیٹاسیٹ بیان کردہ تحقیقی مقصد کے مطابق ہونا چاہیے۔ اتھارٹی نے ایسے کیسز پائے جہاں ٹیمیں مکمل قومی رجسٹریز استعمال کرتی تھیں جب کہ ایک چھوٹا نمونہ کام آتا۔
دوسرے یورپی ID فارمیٹس پر چیک-ہندسہ اصول کے اطلاق کے لیے ہماری EU national ID detection guide دیکھیں۔
2024 کیسز میں کیا ملا
14 صحت نگہداشت کیسز تین مشترکہ ناکامی اقسام شیئر کرتے ہیں۔
تحقیقی ڈیٹا شیئرنگ: ایک ہسپتال AI تربیت کے لیے ایک academic partner کو de-identified مریض ڈیٹاسیٹ بھیجتا ہے۔ سیٹ میں تاریخ پیدائش کے حصے، تشخیص کوڈز، اور علاج کی تاریخیں ہیں۔ اتھارٹی پاتی ہے کہ یہ مجموعہ نایاب بیماریوں والے مریضوں کو دوبارہ بے نقاب کرتا ہے۔ غیر معمولی تشخیص تیزی سے pool کو محدود کرتی ہے۔
تھرڈ پارٹی AI سروسز: ایک health tech فرم کلینکل ریکارڈز کے کام کے لیے مریض نوٹس امریکہ میں مقیم AI سروس کو بھیجتی ہے۔ ان نوٹس میں ذاتی IDs پہلے ہٹائی نہیں جاتیں۔ کوئی درست ٹرانسفر میکانزم موجود نہیں۔
OCR پائپ لائن خلا: ایک انشورر معذوری کے دعوؤں کے لیے اسکین شدہ PDF فارم پروسیس کرتا ہے۔ اس کا OCR ٹول تصاویر کو متن میں تبدیل کرتا ہے۔ لیکن یہ آؤٹ پٹ پر چیک-ہندسہ ٹیسٹ نہیں چلاتا۔ بہت سے IDs چھوٹ جاتے ہیں۔
OCR اکثر نمبر کے بیچ میں خالی جگہیں داخل کرتا ہے یا ڈیش شفٹ کرتا ہے۔ سادہ پیٹرن میچنگ اس آؤٹ پٹ پر ٹوٹ جاتی ہے۔ شناخت OCR متن پر کام کرنا ضروری ہے، نہ صرف صاف input پر۔ اسکین شدہ دستاویزات کو سنبھالنے کے مراحل کے لیے ہماری OCR healthcare detection guide دیکھیں۔
تین تکنیکی ضروریات
یہ تین عناصر ڈنمارکی صحت نگہداشت GDPR تعمیل کی بنیاد بناتے ہیں۔
تمام متن پر چیک-ہندسہ ٹیسٹ: ہر candidate string پر مکمل modulus-11 چیک چلائیں۔ اسے صاف متن اور OCR آؤٹ پٹ دونوں پر لاگو کریں۔
ڈنمارکی زبان کی نام شناخت: ڈنمارکی متن پر تربیت یافتہ ماڈل استعمال کریں۔ spaCy da_core_news ماڈل ایک آپشن ہے۔ ایک عام انگریزی ماڈل ڈنمارکی نام اور org نام چھوڑ دیتا ہے۔
De-identification ریکارڈ: لکھ کر بتائیں کہ کیا ہٹایا، کیا گروپ کیا، اور آؤٹ پٹ کا گروپ سائز کیا ہے۔ اتھارٹی اسے تکنیکی شکل میں مانگتی ہے، پالیسی نوٹ کے طور پر نہیں۔
صحت نگہداشت ڈیٹا واقعات کی لاگت پر ڈیٹا کے لیے، ہماری healthcare breach cost analysis دیکھیں۔