HIPAA سیف ہاربر بڑے پیمانے پر شناخت ہٹانا: صحت کے محققین کے لیے گائیڈ

ایک تعلیمی طبی مرکز کو 200,000 ڈسچارج ریکارڈز صاف کرنے ہیں۔ مقصد: دوبارہ داخلہ پیش گوئی کا ماڈل بنانا۔ موجودہ ٹول کی لاگت $120,000 فی سال ہے۔ ڈیٹا کام کے لیے گرانٹ بجٹ: $5,000۔

یہ خلاء عام ہے۔ صحت تحقیق کو بڑے ڈیٹا سیٹس کی ضرورت ہے۔ ان ڈیٹا سیٹس میں محفوظ صحت معلومات (PHI) ہوتی ہے۔ PHI میں نام، تاریخیں، پتے اور دیگر ذاتی تفصیلات شامل ہیں۔ PHI ہٹانا محققین کو ڈیٹا قانونی طور پر استعمال کرنے دیتا ہے۔ لیکن ٹولز ہسپتال سسٹمز کے لیے قیمت مقرر ہیں، تحقیقی گرانٹس کے لیے نہیں۔

HIPAA سیف ہاربر: 18 شناخت کار

HIPAA کا سیف ہاربر طریقہ (45 CFR §164.514(b)) 18 PHI اقسام درج کرتا ہے۔ صحت ڈیٹا کا "محفوظ" درجہ ختم ہونے سے پہلے سب کو جانا ہوگا۔ ہٹانے کے بعد، مریض کی رضامندی کے بغیر تحقیق آگے بڑھ سکتی ہے۔

یہ ہیں تمام 18 اقسام:

نام
ریاست سے چھوٹا جغرافیائی ڈیٹا (چھوٹی آبادیوں کے لیے زپ کوڈز کو 3 ہندسوں تک تراشنا ضروری ہے)
سال کے علاوہ تمام تاریخیں — داخلہ، ڈسچارج، پیدائش، وفات اور دیگر تاریخیں
فون نمبر
فیکس نمبر
ای میل پتے
سوشل سیکیورٹی نمبر
طبی ریکارڈ نمبر
صحت پلان فائدہ اٹھانے والوں کے نمبر
اکاؤنٹ نمبر
سرٹیفکیٹ اور لائسنس نمبر
گاڑی کے شناخت کار اور سیریل نمبر
آلہ شناخت کار اور سیریل نمبر
ویب URLs
IP پتے
بایومیٹرک شناخت کار (انگلیوں کے نشانات، آواز کے نقوش)
پورے چہرے کی تصاویر اور اسی طرح کی تصاویر
کوئی بھی دوسرا منفرد شناخت کاری نمبر یا کوڈ

پہلے پانچ تقریباً ہر ڈسچارج ریکارڈ میں ظاہر ہوتے ہیں۔ سب کو ہٹانا یا تبدیل کرنا ہوگا۔

تاریخوں کو خاص توجہ چاہیے۔ ہر مریض کی تاریخ کو سال رکھنا لیکن مخصوص دن اور مہینہ کھونا ضروری ہے۔ "15 مارچ 2023" "2023" بن جاتا ہے۔ آپ مدت بطور فیلڈ رکھ سکتے ہیں — لیکن صرف ماخذ تاریخیں ہٹانے کے بعد۔

پیمانے کا مسئلہ

مفید صحت ڈیٹا سیٹس بڑے ہیں:

دوبارہ داخلہ پیش گوئی: 50,000–500,000 ملاقاتیں
علاج کے نتائج کا کام: ہر حالت کے 10,000–100,000 مریض
دوا اثر انگیزی: 5,000–50,000 ریکارڈز
آبادی صحت: 100,000+ ملاقاتیں

اس پیمانے پر دستی جائزہ کام نہیں کرتا۔ 100,000 ریکارڈز کے لیے فی ریکارڈ 5 منٹ کا جائزہ 250–2,500 کام کے دن لیتا ہے۔ آٹومیٹڈ صفائی واحد حقیقی آپشن ہے۔

ٹول قیمت گذاری کا خلاء

انٹرپرائز ٹولز ہسپتال سسٹمز کو ہدف بناتے ہیں:

Datavant: $100,000+/سال
Veradigm (Allscripts): اسی طرح کی قیمتیں
Clinithink CLiX: صرف سیلز سے رابطہ
Syntegra (مصنوعی ڈیٹا): انٹرپرائز قیمت گذاری

مفت اور اوپن سورس ٹولز موجود ہیں لیکن مہارت چاہیے:

MITRE MIST: مفت، لیکن بھاری سیٹ اَپ اور محدود زبان سپورٹ
Stanford NLP DEID: تحقیقی درجہ، Java اور کوڈنگ مہارت چاہیے
i2b2 NLP ٹولز: کلینیکل NLP، سیٹ اَپ درکار

پانچ مرحلہ بیچ عمل

200,000 ڈسچارج ریکارڈز کے لیے ترتیب وار بیچ نقطہ نظر اچھا کام کرتا ہے۔

مرحلہ 1: EHR سے برآمد کریں۔ فی ملاقات متن یا PDF فائلوں کے طور پر ساختہ اور غیر ساختہ فیلڈز نکالیں۔ Epic، Cerner اور Meditech سب یہ سپورٹ کرتے ہیں۔

مرحلہ 2: 5,000 کے بیچز چلائیں۔ اس سائز کے بیچ تیز ہیں اور ہر مرحلے میں جائزے کے لیے کافی چھوٹے ہیں۔

سیف ہاربر کے لیے entity types سیٹ کریں:

PERSON (مریض کے نام، نوٹوں میں خاندان کے افراد)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (پتے، زپ کوڈز، شہر — ریاستی سطح سے نیچے کچھ بھی)
DATE (تمام کلینیکل تاریخیں؛ 89 سے زیادہ عمر کے مریض "> 89" بن جاتے ہیں)
HEALTHCARE_ID (انشورنس نمبر، فائدہ اٹھانے والوں کے نمبر)
ACCOUNT_NUMBER

مرحلہ 3: تاریخیں ایک الگ مرحلے میں سنبھالیں۔ سال رکھیں۔ مہینہ اور دن ہٹائیں۔ 89 سے زیادہ کسی بھی عمر کو "> 89" سے بدلیں۔ پہلے مدت فیلڈز کا حساب لگائیں — داخلے کی مدت، دوبارہ داخلے تک دن۔ پھر ماخذ تاریخیں حذف کریں۔

مرحلہ 4: ہر بیچ کا نمونہ لیں اور جائزہ لیں۔ ہر 5,000 ریکارڈ بیچ کے بعد، انسانی جائزے کے لیے 50 ریکارڈز نکالیں۔ تمام 18 اقسام جانچیں۔ آگے بڑھنے سے پہلے کسی بھی خلاء کو ٹھیک کریں۔

مرحلہ 5: دستاویز بنائیں اور تصدیق کریں۔ HIPAA کو کسی ایسے شخص کی ضرورت ہے جو شماریاتی علم رکھتا ہو اس بات کی تصدیق کرے کہ دوبارہ شناخت کا خطرہ بہت کم ہے۔ اپنی entity config اور نمونہ نتائج لکھیں۔ انہیں IRB ریکارڈز کے لیے رکھیں۔

لاگت کا موازنہ

انٹرپرائز ٹول: $120,000/سال۔ سیٹ اَپ، تربیت، لامحدود پروسیسنگ اور تعمیل سپورٹ شامل ہے۔

بیچ پروسیسنگ:

200,000 ریکارڈز × 300 الفاظ اوسط = 60,000,000 ٹوکن
€0.0001/ٹوکن پر: €6,000 پروسیسنگ میں
پراجیکٹ کے لیے Pro پلان (€180/سال) یا Business پلان (€348/سال)
محقق جائزہ وقت: 20–40 گھنٹے
کل: تقریباً €7,000–8,000

انٹرپرائز ٹول کے مقابلے بچت: $111,000–113,000۔ $120,000 پر رکی ہوئی تحقیق $7,000 پر ممکن ہو جاتی ہے۔

اہم حدود

صرف متن۔ یہ نقطہ نظر متن پر مبنی PHI سنبھالتا ہے۔ تصاویر، آڈیو اور بایومیٹرک ڈیٹا (سیف ہاربر اقسام 13، 16 اور 17) کے لیے دوسرے ٹولز درکار ہیں۔

توثیق ضروری ہے۔ آٹومیٹڈ ٹولز کچھ اشیاء چھوڑ دیتے ہیں۔ 200,000 ریکارڈز پر 0.1% مس ریٹ 200 ریکارڈز کو زندہ PHI کے ساتھ چھوڑتی ہے۔ توثیق نہ چھوڑیں۔

اپنے پرائیویسی دفتر سے جانچیں۔ اس گائیڈ نے مطالعے کے لیے IRB منظوری PHI ہٹانے کے طریقہ کو کور نہیں کرتی۔

ماہر تعین ایک آپشن ہے۔ HIPAA "ماہر تعین" (45 CFR §164.514(b)(1)) کے ذریعے صفائی کی بھی اجازت دیتا ہے۔ ایک اعداد و شمار کا ماہر تصدیق کرتا ہے کہ دوبارہ شناخت کا خطرہ بہت کم ہے۔

نتیجہ

صحت تحقیق جو مریضوں کی مدد کر سکتی ہے، PHI ہٹانے کی لاگت کے پیچھے پھنسی ہوئی ہے۔ دستی جائزہ پیمانہ نہیں بڑھاتا۔ انٹرپرائز ٹولز زیادہ تر گرانٹس سے زیادہ مہنگے ہیں۔

ٹوکن پر مبنی بیچ پروسیسنگ بڑے پیمانے پر تحقیق ممکن بناتی ہے۔ تعلیمی مراکز اور آزاد محققین وہی درستگی حاصل کرتے ہیں جو بڑے ہسپتال سسٹمز کو ملتی ہے۔ معیاری گرانٹ بجٹ پر۔

ماخذ

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

مفت آزمائش شروع کریں خصوصیات دیکھیں

HIPAA سیف ہاربر بڑے پیمانے پر شناخت ہٹانا