বড় আকারে HIPAA Safe Harbor ডি-আইডেন্টিফিকেশন: স্বাস্থ্যসেবা গবেষকদের জন্য একটি গাইড
একটি একাডেমিক মেডিকেল সেন্টারের ২,০০,০০০টি ডিসচার্জ রেকর্ড স্ক্রাব করা দরকার। লক্ষ্য: একটি রিঅ্যাডমিশন পূর্বাভাস মডেল তৈরি করা। বিদ্যমান টুলের খরচ বছরে $১,২০,০০০। ডেটা কাজের জন্য গ্রান্ট বাজেট: $৫,০০০।
এই ব্যবধান সাধারণ। স্বাস্থ্যসেবা গবেষণার বড় ডেটাসেট দরকার। সেই ডেটাসেটে সুরক্ষিত স্বাস্থ্য তথ্য (PHI) থাকে। PHI-তে নাম, তারিখ, ঠিকানা এবং অন্যান্য ব্যক্তিগত বিবরণ অন্তর্ভুক্ত। PHI সরিয়ে ফেললে গবেষকরা আইনিভাবে তথ্য ব্যবহার করতে পারেন। কিন্তু টুলগুলোর দাম হাসপাতাল সিস্টেমের জন্য, গবেষণা গ্রান্টের জন্য নয়।
HIPAA Safe Harbor: ১৮টি শনাক্তকারী
HIPAA-র Safe Harbor পদ্ধতি (45 CFR §164.514(b)) ১৮ ধরনের PHI তালিকা করে। স্বাস্থ্য তথ্য তার "সুরক্ষিত" অবস্থা হারানোর আগে সবগুলো সরাতে হবে। সরানোর পর রোগীর সম্মতি ছাড়াই গবেষণা চালানো যাবে।
এখানে সবগুলো ১৮ ধরন:
- নাম
- রাজ্যের চেয়ে ছোট ভৌগোলিক তথ্য (ছোট জনগোষ্ঠীর জন্য জিপ কোড ৩ সংখ্যায় ছাঁটাই করতে হবে)
- বছর ব্যতীত সমস্ত তারিখ — ভর্তি, ছাড়, জন্ম, মৃত্যু এবং অন্যান্য তারিখ
- ফোন নম্বর
- ফ্যাক্স নম্বর
- ইমেইল ঠিকানা
- সোশ্যাল সিকিউরিটি নম্বর
- মেডিকেল রেকর্ড নম্বর
- স্বাস্থ্য পরিকল্পনা সুবিধাভোগী নম্বর
- অ্যাকাউন্ট নম্বর
- সার্টিফিকেট ও লাইসেন্স নম্বর
- যানবাহন শনাক্তকারী ও সিরিয়াল নম্বর
- ডিভাইস শনাক্তকারী ও সিরিয়াল নম্বর
- ওয়েব URL
- IP ঠিকানা
- বায়োমেট্রিক শনাক্তকারী (আঙুলের ছাপ, ভয়েস প্রিন্ট)
- পূর্ণ মুখের ছবি এবং অনুরূপ ছবি
- যেকোনো অন্য অনন্য শনাক্তকারী নম্বর বা কোড
প্রথম পাঁচটি প্রায় প্রতিটি ডিসচার্জ রেকর্ডে থাকে। সবগুলো সরাতে বা পরিবর্তন করতে হবে।
তারিখের বিশেষ যত্ন প্রয়োজন। প্রতিটি রোগীর তারিখ বছর রেখে নির্দিষ্ট দিন ও মাস হারাতে হবে। "১৫ মার্চ, ২০২৩" হবে "২০২৩।" আপনি একটি ফিল্ড হিসেবে সময়কাল রাখতে পারেন — কিন্তু শুধুমাত্র উৎস তারিখ চলে যাওয়ার পরে।
স্কেলের সমস্যা
দরকারী স্বাস্থ্যসেবা ডেটাসেট বড়:
- রিঅ্যাডমিশন পূর্বাভাস: ৫০,০০০–৫,০০,০০০ এনকাউন্টার
- চিকিৎসার ফলাফলের কাজ: প্রতিটি অবস্থার জন্য ১০,০০০–১,০০,০০০ রোগী
- ওষুধের কার্যকারিতা: ৫,০০০–৫০,০০০ রেকর্ড
- জনস্বাস্থ্য: ১,০০,০০০+ এনকাউন্টার
এই স্কেলে ম্যানুয়াল পর্যালোচনা কাজ করে না। প্রতি রেকর্ডে ৫ মিনিটের পর্যালোচনা ১,০০,০০০ রেকর্ডের জন্য ২৫০–২,৫০০ কার্যদিবস লাগে। মানুষের ত্রুটির হার ১–৫%। এমনকি ছোট মিস রেট HIPAA ঝুঁকি তৈরি করে। দুইজন পর্যালোচক তারিখ ভিন্নভাবে পরিচালনা করলে Safe Harbor অবস্থা ভাঙতে পারে। একটি বড় ডেটাসেটে এটি সহজেই হওয়া ভুল।
স্বয়ংক্রিয় স্ক্রাবিং একমাত্র বাস্তব বিকল্প। এটি ক্লিনিক্যাল নোটে পাওয়া বিভিন্ন ফরম্যাটে সমস্ত ১৮ ধরন ধরতে পারতে হবে।
টুলের মূল্যের ব্যবধান
এন্টারপ্রাইজ টুল হাসপাতাল সিস্টেম লক্ষ্য করে:
- Datavant: $১,০০,০০০+/বছর
- Veradigm (Allscripts): অনুরূপ দাম
- Clinithink CLiX: শুধুমাত্র বিক্রয় যোগাযোগ
- Syntegra (সিন্থেটিক ডেটা): এন্টারপ্রাইজ মূল্য
এই ভেন্ডররা আইনি ও সম্মতি টিম সহ বড় প্রতিষ্ঠানে বিক্রি করে। গবেষণা গ্রান্ট তাদের বাজার নয়।
বিনামূল্যে ও ওপেন-সোর্স টুল আছে কিন্তু দক্ষতা লাগে:
- MITRE MIST: বিনামূল্যে, কিন্তু ভারী সেটআপ এবং সীমিত ভাষা সমর্থন প্রয়োজন
- Stanford NLP DEID: গবেষণা-মানের, Java এবং কোডিং দক্ষতা প্রয়োজন
- i2b2 NLP টুল: ক্লিনিক্যাল NLP, সেটআপ প্রয়োজন
বেশিরভাগ গবেষকের সহজ সেটআপ সহ নির্ভরযোগ্য PHI অপসারণ দরকার। ওপেন-সোর্স টুল চালাতে কোডিং ও ভাষাবিজ্ঞান দক্ষতা দরকার। এগুলোতে যাচাইকরণ কাজও দরকার। এন্টারপ্রাইজ টুলের দাম বেশিরভাগ গ্রান্ট অনুমতি দেওয়ার চেয়ে বেশি। ব্যবধান বাস্তব এবং এটি গবেষণা আটকে দেয়।
পাঁচ ধাপের ব্যাচ প্রক্রিয়া
২,০০,০০০ ডিসচার্জ রেকর্ডের জন্য একটি ক্রমানুসারী ব্যাচ পদ্ধতি ভালো কাজ করে।
ধাপ ১: EHR থেকে এক্সপোর্ট করুন। প্রতি এনকাউন্টারে টেক্সট বা PDF ফাইল হিসেবে স্ট্রাকচার্ড ও আনস্ট্রাকচার্ড ফিল্ড পুল করুন। Epic, Cerner এবং Meditech সবই এটি সমর্থন করে। তারা ক্লিনিক্যাল নোট ফিল্ড অন্তর্ভুক্ত করে CSV বা HL7 ফাইল এক্সপোর্ট করে।
ধাপ ২: ৫,০০০-এর ব্যাচে চালান। এই আকারের ব্যাচ দ্রুত এবং প্রতিটি ধাপে পর্যালোচনার জন্য যথেষ্ট ছোট।
Safe Harbor-এর জন্য এনটিটির ধরন সেট করুন:
- PERSON (রোগীর নাম, নোটে পরিবারের সদস্য)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (ঠিকানা, জিপ কোড, শহর — রাজ্য স্তরের নিচের সবকিছু)
- DATE (সমস্ত ক্লিনিক্যাল তারিখ; ৮৯ বছরের বেশি রোগীরা "> ৮৯" হন)
- HEALTHCARE_ID (বীমা নম্বর, সুবিধাভোগী নম্বর)
- ACCOUNT_NUMBER
স্থানীয় HIPAA টুল দিয়ে ক্লিনিক্যাল নোটের ব্যাচ PHI স্ক্রাবিং সম্পর্কে আরও জানতে দেখুন batch processing clinical notes with local HIPAA tools। সেই গাইডে ফাইল ফরম্যাট এবং এনটিটি টিউনিং গভীরভাবে কভার করা আছে।
ধাপ ৩: তারিখ আলাদা ধাপে পরিচালনা করুন। বছর রাখুন। মাস এবং দিন সরিয়ে ফেলুন। ৮৯ বছরের বেশি যেকোনো বয়স "> ৮৯" দিয়ে প্রতিস্থাপন করুন। বিরল বয়স-রোগ জুটি রোগী পুনরায় শনাক্ত করতে পারে। প্রথমে সময়কাল ফিল্ড গণনা করুন — থাকার দৈর্ঘ্য, রিঅ্যাডমিশনের দিন। তারপর উৎস তারিখ মুছুন।
ধাপ ৪: প্রতিটি ব্যাচের নমুনা নিন ও পর্যালোচনা করুন। প্রতিটি ৫,০০০-রেকর্ড ব্যাচের পরে মানব পর্যালোচনার জন্য ৫০টি রেকর্ড পুল করুন। সমস্ত ১৮ ধরন পরীক্ষা করুন। নোটে গবেষকের নাম বা রেফারিং চিকিৎসকের বিবরণের মতো প্রসঙ্গ আইটেম খুঁজুন। নিশ্চিত করুন তারিখ পরিচালনা Safe Harbor নিয়মের সাথে মেলে। এগিয়ে যাওয়ার আগে যেকোনো ব্যবধান ঠিক করুন।
ধাপ ৫: ডকুমেন্ট করুন এবং সার্টিফাই করুন। HIPAA দাবি করে যে পরিসংখ্যান জ্ঞান সম্পন্ন কেউ নিশ্চিত করুন পুনঃশনাক্তকরণের ঝুঁকি খুবই ছোট। Safe Harbor-এর জন্য অপসারণকারী দল সেই রায় দেয়। আপনার এনটিটি কনফিগ এবং স্যাম্পলিং ফলাফল লিখুন। IRB রেকর্ডের জন্য সংরক্ষণ করুন।
প্রতিটি অপসারণের জন্য অডিট ট্রেইল দরকার? Explainable redaction with HIPAA audit trail লগিং বিস্তারিত কভার করে।
খরচের তুলনা
এন্টারপ্রাইজ টুল: $১,২০,০০০/বছর। সেটআপ, প্রশিক্ষণ, সীমাহীন প্রক্রিয়াকরণ এবং সম্মতি সহায়তা অন্তর্ভুক্ত।
ব্যাচ প্রক্রিয়াকরণ:
- ২,০০,০০০ রেকর্ড × গড় ৩০০ শব্দ = ৬,০০,০০,০০০ টোকেন
- €০.০০০১/টোকেন হারে: প্রক্রিয়াকরণে €৬,০০০
- প্রকল্পের জন্য Pro পরিকল্পনা (€১৮০/বছর) বা Business পরিকল্পনা (€৩৪৮/বছর)
- গবেষক পর্যালোচনার সময়: ২০–৪০ ঘণ্টা
- মোট: প্রায় €৭,০০০–€৮,০০০
এন্টারপ্রাইজ টুলের তুলনায় সঞ্চয়: $১,১১,০০০–$১,১৩,০০০। $১,২০,০০০-এ আটকে থাকা গবেষণা $৭,০০০-এ সম্ভব হয়ে ওঠে।
মূল সীমাবদ্ধতা
শুধুমাত্র টেক্সট। এই পদ্ধতি টেক্সট-ভিত্তিক PHI পরিচালনা করে। ছবি, অডিও এবং বায়োমেট্রিক ডেটা (Safe Harbor বিভাগ ১৩, ১৬ এবং ১৭) অন্য টুল প্রয়োজন।
যাচাইকরণ প্রয়োজন। স্বয়ংক্রিয় টুল কিছু আইটেম মিস করে। ২,০০,০০০ রেকর্ডে ০.১% মিস রেট ২০০টি রেকর্ডে লাইভ PHI রেখে দেয়। এটি একটি বাস্তব HIPAA ঝুঁকি। যাচাইকরণ এড়িয়ে যাবেন না।
আপনার প্রাইভেসি অফিসের সাথে যোগাযোগ করুন। গবেষণার জন্য IRB অনুমোদন স্ক্রাবিং পদ্ধতি কভার করে না। বেশিরভাগ কেন্দ্র PHI অপসারণ পদ্ধতি আলাদাভাবে পর্যালোচনা করে। এই গাইড সেই পর্যালোচনার পরিপূরক — এটি প্রতিস্থাপন করে না।
বিশেষজ্ঞ নির্ধারণ একটি বিকল্প। HIPAA "বিশেষজ্ঞ নির্ধারণ" (45 CFR §164.514(b)(1)) মাধ্যমে স্ক্রাবিংও অনুমতি দেয়। একজন পরিসংখ্যান বিশেষজ্ঞ সার্টিফাই করেন যে পুনঃশনাক্তকরণের ঝুঁকি খুবই ছোট। এই পথ অস্বাভাবিক ডেটাসেটের জন্য উপযুক্ত। এটি ভালো কাজ করে যখন সমস্ত তারিখ সরানো টাইম-সিরিজ বিশ্লেষণ ভেঙে দেয়।
স্বয়ংক্রিয় PHI টুলের পাশাপাশি তুলনার জন্য দেখুন PHI detection accuracy comparison।
উপসংহার
রোগীদের সাহায্য করতে পারে এমন স্বাস্থ্যসেবা গবেষণা PHI অপসারণ খরচের পিছনে আটকে আছে। ম্যানুয়াল পর্যালোচনা স্কেল করে না। এন্টারপ্রাইজ টুলের দাম বেশিরভাগ গ্রান্টের চেয়ে বেশি। ডেটাসেট আটকে থাকে বা ভুলভাবে স্ক্রাব করা হয়।
টোকেন-ভিত্তিক ব্যাচ প্রক্রিয়াকরণ বড় আকারের গবেষণা সম্ভব করে তোলে। একাডেমিক কেন্দ্র এবং স্বাধীন গবেষকরা বড় হাসপাতাল সিস্টেমের মতো একই নির্ভুলতা পান। একটি আদর্শ গ্রান্ট বাজেটে।