حذف شناسه HIPAA Safe Harbor در مقیاس: راهنمایی برای محققان بهداشتی

یک مرکز پزشکی دانشگاهی نیاز دارد 200,000 سابقه ترخیص را پاک‌سازی کند. هدف: ساخت یک مدل پیش‌بینی بستری مجدد. ابزار موجود $120,000 در سال هزینه دارد. بودجه کمک‌هزینه برای کار داده: $5,000.

این شکاف رایج است. تحقیقات بهداشتی به مجموعه داده‌های بزرگ نیاز دارد. آن مجموعه داده‌ها اطلاعات بهداشتی محافظت‌شده (PHI) دارند. PHI شامل نام، تاریخ، آدرس و سایر اطلاعات شخصی است. حذف PHI به محققان اجازه می‌دهد از داده به‌صورت قانونی استفاده کنند. اما ابزارها برای سیستم‌های بیمارستانی قیمت‌گذاری شده‌اند، نه کمک‌هزینه‌های تحقیقاتی.

HIPAA Safe Harbor: 18 شناسه

روش Safe Harbor HIPAA (45 CFR §164.514(b)) 18 نوع PHI را فهرست می‌کند. همه باید بروند قبل از اینکه داده بهداشتی وضعیت «محافظت‌شده» خود را از دست بدهد. پس از حذف، تحقیق می‌تواند بدون رضایت بیمار ادامه یابد.

اینجا همه 18 نوع آمده است:

نام‌ها
داده‌های جغرافیایی کوچک‌تر از ایالت (کدهای پستی برای جمعیت‌های کوچک نیاز به کوتاه‌سازی به 3 رقم دارند)
همه تاریخ‌ها به جز سال — پذیرش، ترخیص، تولد، مرگ و سایر تاریخ‌ها
شماره تلفن
شماره فاکس
آدرس‌های ایمیل
شماره‌های امنیت اجتماعی
شماره سوابق پزشکی
شماره ذینفعان برنامه بهداشتی
شماره حساب‌ها
شماره گواهی‌نامه‌ها و مجوزها
شناسه‌های وسیله نقلیه و شماره‌های سریال
شناسه‌های دستگاه و شماره‌های سریال
URLهای وب
آدرس‌های IP
شناسه‌های بیومتریک (اثر انگشت، نمونه صدا)
عکس‌های تمام صورت و تصاویر مشابه
هر شماره یا کد شناسه منحصربه‌فرد دیگر

پنج نوع اول در تقریباً هر سابقه ترخیص ظاهر می‌شوند. همه باید حذف یا تغییر شوند.

تاریخ‌ها نیاز به مراقبت ویژه دارند. هر تاریخ بیمار باید سال را نگه دارد اما روز و ماه خاص را از دست بدهد. «15 مارس 2023» تبدیل به «2023» می‌شود. می‌توانید مدت را به‌عنوان یک فیلد نگه دارید — اما فقط پس از اینکه تاریخ‌های منبع رفتند.

مشکل مقیاس

مجموعه داده‌های مفید بهداشتی بزرگ هستند:

پیش‌بینی بستری مجدد: 50,000–500,000 مصاحبه
کار پیامد درمان: 10,000–100,000 بیمار در هر بیماری
اثربخشی دارو: 5,000–50,000 سابقه
بهداشت جمعیت: 100,000+ مصاحبه

بررسی دستی در این مقیاس کار نمی‌کند. یک بررسی 5 دقیقه‌ای در هر سابقه برای 100,000 سابقه 250–2,500 روز کاری می‌طلبد. نرخ خطای انسانی 1–5٪ است. حتی یک نرخ خطای کوچک ریسک HIPAA ایجاد می‌کند. دو بازبین که تاریخ‌ها را متفاوت تفسیر کنند می‌توانند وضعیت Safe Harbor را از بین ببرند. این یک اشتباه آسان در یک مجموعه داده بزرگ است.

پاک‌سازی خودکار تنها گزینه واقعی است. باید همه 18 نوع را در فرمت‌های متنوع یافت‌شده در یادداشت‌های بالینی تشخیص دهد.

شکاف قیمت‌گذاری ابزار

ابزارهای سازمانی سیستم‌های بیمارستانی را هدف می‌گیرند:

Datavant: $100,000+/سال
Veradigm (Allscripts): قیمت‌های مشابه
Clinithink CLiX: فقط تماس با فروش
Syntegra (داده مصنوعی): قیمت‌گذاری سازمانی

این فروشندگان به سازمان‌های بزرگ با تیم‌های حقوقی و انطباق می‌فروشند. کمک‌هزینه‌های تحقیقاتی بازار آن‌ها نیستند.

ابزارهای رایگان و متن‌باز وجود دارند اما تخصص می‌طلبند:

MITRE MIST: رایگان، اما راه‌اندازی سنگین نیاز دارد و پشتیبانی زبانی محدودی دارد
Stanford NLP DEID: درجه تحقیقاتی، به Java و مهارت‌های کدنویسی نیاز دارد
ابزارهای i2b2 NLP: NLP بالینی، راه‌اندازی لازم است

اکثر محققان به حذف PHI قابل اطمینان با راه‌اندازی ساده نیاز دارند. ابزارهای متن‌باز برای اجرا به مهارت‌های کدنویسی و زبان‌شناسی نیاز دارند. همچنین به کار اعتبارسنجی نیاز دارند. ابزارهای سازمانی بیشتر از اکثر کمک‌هزینه‌ها هزینه دارند. شکاف واقعی است و تحقیق را مسدود می‌کند.

فرآیند پنج‌مرحله‌ای دسته‌ای

برای 200,000 سابقه ترخیص، یک رویکرد دسته‌ای ترتیبی به‌خوبی کار می‌کند.

مرحله 1: صادرات از EHR. فیلدهای ساختاریافته و غیرساختاریافته را به‌عنوان فایل‌های متنی یا PDF در هر مصاحبه بکشید. Epic، Cerner و Meditech همه از این پشتیبانی می‌کنند. آن‌ها فایل‌های CSV یا HL7 را با فیلدهای یادداشت بالینی صادر می‌کنند.

مرحله 2: اجرای دسته‌های 5,000. دسته‌هایی با این اندازه سریع هستند و به اندازه کافی کوچک برای بررسی در هر مرحله هستند.

نوع موجودیت‌ها را برای Safe Harbor تنظیم کنید:

PERSON (نام بیماران، اعضای خانواده در یادداشت‌ها)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (آدرس‌ها، کدهای پستی، شهرها — هر چیز زیر سطح ایالت)
DATE (همه تاریخ‌های بالینی؛ بیماران بالای 89 «> 89» می‌شوند)
HEALTHCARE_ID (شماره‌های بیمه، شماره‌های ذینفع)
ACCOUNT_NUMBER

برای اطلاعات بیشتر درباره پاک‌سازی دسته‌ای PHI برای یادداشت‌های بالینی، به پردازش دسته‌ای یادداشت‌های بالینی با ابزارهای HIPAA محلی مراجعه کنید.

مرحله 3: مدیریت تاریخ‌ها به‌عنوان مرحله جداگانه. سال را نگه دارید. ماه و روز را حذف کنید. هر سنی بالاتر از 89 را با «> 89» جایگزین کنید. جفت‌های نادر سن-بیماری می‌توانند بیماران را شناسایی مجدد کنند. ابتدا فیلدهای مدت را محاسبه کنید — طول اقامت، روزها تا بستری مجدد. سپس تاریخ‌های منبع را حذف کنید.

مرحله 4: نمونه‌برداری و بررسی هر دسته. پس از هر دسته 5,000 سابقه‌ای، 50 سابقه را برای بررسی انسانی بکشید. همه 18 نوع را بررسی کنید. به دنبال موارد زمینه‌ای مانند نام محقق در یادداشت‌ها یا جزئیات پزشک ارجاع‌دهنده باشید. مدیریت تاریخ را با قوانین Safe Harbor تأیید کنید. هر شکافی را قبل از ادامه برطرف کنید.

مرحله 5: مستندسازی و گواهی. HIPAA نیاز دارد کسی با دانش آماری تأیید کند ریسک شناسایی مجدد بسیار کوچک است. برای Safe Harbor، تیمی که حذف را انجام می‌دهد این تصمیم را می‌گیرد. پیکربندی موجودیت و نتایج نمونه‌برداری خود را مستند کنید. آن‌ها را برای سوابق IRB نگه دارید.

برای مسیر حسابرسی برای هر حذف، حذف قابل توضیح با مسیر حسابرسی HIPAA جزئیات ثبت را پوشش می‌دهد.

مقایسه هزینه

ابزار سازمانی: $120,000/سال. راه‌اندازی، آموزش، پردازش نامحدود و پشتیبانی انطباق را پوشش می‌دهد.

پردازش دسته‌ای:

200,000 سابقه × میانگین 300 کلمه = 60,000,000 توکن
با نرخ €0.0001/توکن: €6,000 در پردازش
طرح Pro (€180/سال) یا طرح Business (€348/سال) برای پروژه
زمان بررسی محقق: 20–40 ساعت
جمع: تقریباً €7,000–8,000

صرفه‌جویی در مقابل ابزار سازمانی: $111,000–113,000. تحقیقی که در $120,000 متوقف شده بود با $7,000 امکان‌پذیر می‌شود.

محدودیت‌های کلیدی

فقط متن. این رویکرد PHI مبتنی بر متن را مدیریت می‌کند. تصاویر، صدا و داده‌های بیومتریک (دسته‌های Safe Harbor 13، 16 و 17) به ابزارهای دیگر نیاز دارند.

اعتبارسنجی الزامی است. ابزارهای خودکار برخی موارد را از دست می‌دهند. نرخ خطای 0.1٪ روی 200,000 سابقه 200 سابقه با PHI زنده می‌گذارد. این یک ریسک واقعی HIPAA است. اعتبارسنجی را نادیده نگیرید.

با دفتر حریم خصوصی خود بررسی کنید. تأیید IRB برای مطالعه روش پاک‌سازی را پوشش نمی‌دهد. اکثر مراکز رویکردهای حذف PHI را جداگانه بررسی می‌کنند. این راهنما به آن بررسی کمک می‌کند — آن را جایگزین نمی‌کند.

تعیین متخصص یک گزینه است. HIPAA همچنین اجازه پاک‌سازی از طریق «تعیین متخصص» (45 CFR §164.514(b)(1)) را می‌دهد. یک متخصص آمار تأیید می‌کند ریسک شناسایی مجدد بسیار کوچک است. این مسیر برای مجموعه داده‌های غیرمعمول مناسب است. وقتی حذف همه تاریخ‌ها تحلیل سری زمانی را خراب کند به‌خوبی کار می‌کند.

برای مقایسه جنبی ابزارهای PHI خودکار، به مقایسه دقت تشخیص PHI مراجعه کنید.

نتیجه‌گیری

تحقیقات بهداشتی که می‌تواند به بیماران کمک کند پشت هزینه‌های حذف PHI گیر افتاده است. بررسی دستی مقیاس نمی‌شود. ابزارهای سازمانی بیشتر از اکثر کمک‌هزینه‌ها هزینه دارند. مجموعه داده‌ها قفل می‌مانند یا به‌درستی پاک‌سازی نمی‌شوند.

پردازش دسته‌ای مبتنی بر توکن تحقیق در مقیاس بزرگ را امکان‌پذیر می‌کند. مراکز دانشگاهی و محققان مستقل همان دقت سیستم‌های بیمارستانی بزرگ را دریافت می‌کنند. با بودجه کمک‌هزینه استاندارد.

منابع

مقالات مرتبط

بهداشت و درمان

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

حذف شناسه HIPAA Safe Harbor در مقیاس