By · Last updated 2026-05-25

بازگشت به وبلاگبهداشت و درمان

حذف شناسه HIPAA Safe Harbor در مقیاس

HIPAA Safe Harbor نیازمند حذف 18 دسته خاص از شناسه‌های PHI است. مراکز پزشکی دانشگاهی به حذف شناسه در مقیاس نیاز دارند اما ابزارهای موجود بسیار گران هستند.

May 25, 20269 دقیقه مطالعه
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

حذف شناسه HIPAA Safe Harbor در مقیاس: راهنمایی برای محققان بهداشتی

یک مرکز پزشکی دانشگاهی نیاز دارد 200,000 سابقه ترخیص را پاک‌سازی کند. هدف: ساخت یک مدل پیش‌بینی بستری مجدد. ابزار موجود $120,000 در سال هزینه دارد. بودجه کمک‌هزینه برای کار داده: $5,000.

این شکاف رایج است. تحقیقات بهداشتی به مجموعه داده‌های بزرگ نیاز دارد. آن مجموعه داده‌ها اطلاعات بهداشتی محافظت‌شده (PHI) دارند. PHI شامل نام، تاریخ، آدرس و سایر اطلاعات شخصی است. حذف PHI به محققان اجازه می‌دهد از داده به‌صورت قانونی استفاده کنند. اما ابزارها برای سیستم‌های بیمارستانی قیمت‌گذاری شده‌اند، نه کمک‌هزینه‌های تحقیقاتی.

HIPAA Safe Harbor: 18 شناسه

روش Safe Harbor HIPAA (45 CFR §164.514(b)) 18 نوع PHI را فهرست می‌کند. همه باید بروند قبل از اینکه داده بهداشتی وضعیت «محافظت‌شده» خود را از دست بدهد. پس از حذف، تحقیق می‌تواند بدون رضایت بیمار ادامه یابد.

اینجا همه 18 نوع آمده است:

  1. نام‌ها
  2. داده‌های جغرافیایی کوچک‌تر از ایالت (کدهای پستی برای جمعیت‌های کوچک نیاز به کوتاه‌سازی به 3 رقم دارند)
  3. همه تاریخ‌ها به جز سال — پذیرش، ترخیص، تولد، مرگ و سایر تاریخ‌ها
  4. شماره تلفن
  5. شماره فاکس
  6. آدرس‌های ایمیل
  7. شماره‌های امنیت اجتماعی
  8. شماره سوابق پزشکی
  9. شماره ذینفعان برنامه بهداشتی
  10. شماره حساب‌ها
  11. شماره گواهی‌نامه‌ها و مجوزها
  12. شناسه‌های وسیله نقلیه و شماره‌های سریال
  13. شناسه‌های دستگاه و شماره‌های سریال
  14. URLهای وب
  15. آدرس‌های IP
  16. شناسه‌های بیومتریک (اثر انگشت، نمونه صدا)
  17. عکس‌های تمام صورت و تصاویر مشابه
  18. هر شماره یا کد شناسه منحصربه‌فرد دیگر

پنج نوع اول در تقریباً هر سابقه ترخیص ظاهر می‌شوند. همه باید حذف یا تغییر شوند.

تاریخ‌ها نیاز به مراقبت ویژه دارند. هر تاریخ بیمار باید سال را نگه دارد اما روز و ماه خاص را از دست بدهد. «15 مارس 2023» تبدیل به «2023» می‌شود. می‌توانید مدت را به‌عنوان یک فیلد نگه دارید — اما فقط پس از اینکه تاریخ‌های منبع رفتند.

مشکل مقیاس

مجموعه داده‌های مفید بهداشتی بزرگ هستند:

  • پیش‌بینی بستری مجدد: 50,000–500,000 مصاحبه
  • کار پیامد درمان: 10,000–100,000 بیمار در هر بیماری
  • اثربخشی دارو: 5,000–50,000 سابقه
  • بهداشت جمعیت: 100,000+ مصاحبه

بررسی دستی در این مقیاس کار نمی‌کند. یک بررسی 5 دقیقه‌ای در هر سابقه برای 100,000 سابقه 250–2,500 روز کاری می‌طلبد. نرخ خطای انسانی 1–5٪ است. حتی یک نرخ خطای کوچک ریسک HIPAA ایجاد می‌کند. دو بازبین که تاریخ‌ها را متفاوت تفسیر کنند می‌توانند وضعیت Safe Harbor را از بین ببرند. این یک اشتباه آسان در یک مجموعه داده بزرگ است.

پاک‌سازی خودکار تنها گزینه واقعی است. باید همه 18 نوع را در فرمت‌های متنوع یافت‌شده در یادداشت‌های بالینی تشخیص دهد.

شکاف قیمت‌گذاری ابزار

ابزارهای سازمانی سیستم‌های بیمارستانی را هدف می‌گیرند:

  • Datavant: $100,000+/سال
  • Veradigm (Allscripts): قیمت‌های مشابه
  • Clinithink CLiX: فقط تماس با فروش
  • Syntegra (داده مصنوعی): قیمت‌گذاری سازمانی

این فروشندگان به سازمان‌های بزرگ با تیم‌های حقوقی و انطباق می‌فروشند. کمک‌هزینه‌های تحقیقاتی بازار آن‌ها نیستند.

ابزارهای رایگان و متن‌باز وجود دارند اما تخصص می‌طلبند:

  • MITRE MIST: رایگان، اما راه‌اندازی سنگین نیاز دارد و پشتیبانی زبانی محدودی دارد
  • Stanford NLP DEID: درجه تحقیقاتی، به Java و مهارت‌های کدنویسی نیاز دارد
  • ابزارهای i2b2 NLP: NLP بالینی، راه‌اندازی لازم است

اکثر محققان به حذف PHI قابل اطمینان با راه‌اندازی ساده نیاز دارند. ابزارهای متن‌باز برای اجرا به مهارت‌های کدنویسی و زبان‌شناسی نیاز دارند. همچنین به کار اعتبارسنجی نیاز دارند. ابزارهای سازمانی بیشتر از اکثر کمک‌هزینه‌ها هزینه دارند. شکاف واقعی است و تحقیق را مسدود می‌کند.

فرآیند پنج‌مرحله‌ای دسته‌ای

برای 200,000 سابقه ترخیص، یک رویکرد دسته‌ای ترتیبی به‌خوبی کار می‌کند.

مرحله 1: صادرات از EHR. فیلدهای ساختاریافته و غیرساختاریافته را به‌عنوان فایل‌های متنی یا PDF در هر مصاحبه بکشید. Epic، Cerner و Meditech همه از این پشتیبانی می‌کنند. آن‌ها فایل‌های CSV یا HL7 را با فیلدهای یادداشت بالینی صادر می‌کنند.

مرحله 2: اجرای دسته‌های 5,000. دسته‌هایی با این اندازه سریع هستند و به اندازه کافی کوچک برای بررسی در هر مرحله هستند.

نوع موجودیت‌ها را برای Safe Harbor تنظیم کنید:

  • PERSON (نام بیماران، اعضای خانواده در یادداشت‌ها)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (آدرس‌ها، کدهای پستی، شهرها — هر چیز زیر سطح ایالت)
  • DATE (همه تاریخ‌های بالینی؛ بیماران بالای 89 «> 89» می‌شوند)
  • HEALTHCARE_ID (شماره‌های بیمه، شماره‌های ذینفع)
  • ACCOUNT_NUMBER

برای اطلاعات بیشتر درباره پاک‌سازی دسته‌ای PHI برای یادداشت‌های بالینی، به پردازش دسته‌ای یادداشت‌های بالینی با ابزارهای HIPAA محلی مراجعه کنید.

مرحله 3: مدیریت تاریخ‌ها به‌عنوان مرحله جداگانه. سال را نگه دارید. ماه و روز را حذف کنید. هر سنی بالاتر از 89 را با «> 89» جایگزین کنید. جفت‌های نادر سن-بیماری می‌توانند بیماران را شناسایی مجدد کنند. ابتدا فیلدهای مدت را محاسبه کنید — طول اقامت، روزها تا بستری مجدد. سپس تاریخ‌های منبع را حذف کنید.

مرحله 4: نمونه‌برداری و بررسی هر دسته. پس از هر دسته 5,000 سابقه‌ای، 50 سابقه را برای بررسی انسانی بکشید. همه 18 نوع را بررسی کنید. به دنبال موارد زمینه‌ای مانند نام محقق در یادداشت‌ها یا جزئیات پزشک ارجاع‌دهنده باشید. مدیریت تاریخ را با قوانین Safe Harbor تأیید کنید. هر شکافی را قبل از ادامه برطرف کنید.

مرحله 5: مستندسازی و گواهی. HIPAA نیاز دارد کسی با دانش آماری تأیید کند ریسک شناسایی مجدد بسیار کوچک است. برای Safe Harbor، تیمی که حذف را انجام می‌دهد این تصمیم را می‌گیرد. پیکربندی موجودیت و نتایج نمونه‌برداری خود را مستند کنید. آن‌ها را برای سوابق IRB نگه دارید.

برای مسیر حسابرسی برای هر حذف، حذف قابل توضیح با مسیر حسابرسی HIPAA جزئیات ثبت را پوشش می‌دهد.

مقایسه هزینه

ابزار سازمانی: $120,000/سال. راه‌اندازی، آموزش، پردازش نامحدود و پشتیبانی انطباق را پوشش می‌دهد.

پردازش دسته‌ای:

  • 200,000 سابقه × میانگین 300 کلمه = 60,000,000 توکن
  • با نرخ €0.0001/توکن: €6,000 در پردازش
  • طرح Pro (€180/سال) یا طرح Business (€348/سال) برای پروژه
  • زمان بررسی محقق: 20–40 ساعت
  • جمع: تقریباً €7,000–8,000

صرفه‌جویی در مقابل ابزار سازمانی: $111,000–113,000. تحقیقی که در $120,000 متوقف شده بود با $7,000 امکان‌پذیر می‌شود.

محدودیت‌های کلیدی

فقط متن. این رویکرد PHI مبتنی بر متن را مدیریت می‌کند. تصاویر، صدا و داده‌های بیومتریک (دسته‌های Safe Harbor 13، 16 و 17) به ابزارهای دیگر نیاز دارند.

اعتبارسنجی الزامی است. ابزارهای خودکار برخی موارد را از دست می‌دهند. نرخ خطای 0.1٪ روی 200,000 سابقه 200 سابقه با PHI زنده می‌گذارد. این یک ریسک واقعی HIPAA است. اعتبارسنجی را نادیده نگیرید.

با دفتر حریم خصوصی خود بررسی کنید. تأیید IRB برای مطالعه روش پاک‌سازی را پوشش نمی‌دهد. اکثر مراکز رویکردهای حذف PHI را جداگانه بررسی می‌کنند. این راهنما به آن بررسی کمک می‌کند — آن را جایگزین نمی‌کند.

تعیین متخصص یک گزینه است. HIPAA همچنین اجازه پاک‌سازی از طریق «تعیین متخصص» (45 CFR §164.514(b)(1)) را می‌دهد. یک متخصص آمار تأیید می‌کند ریسک شناسایی مجدد بسیار کوچک است. این مسیر برای مجموعه داده‌های غیرمعمول مناسب است. وقتی حذف همه تاریخ‌ها تحلیل سری زمانی را خراب کند به‌خوبی کار می‌کند.

برای مقایسه جنبی ابزارهای PHI خودکار، به مقایسه دقت تشخیص PHI مراجعه کنید.

نتیجه‌گیری

تحقیقات بهداشتی که می‌تواند به بیماران کمک کند پشت هزینه‌های حذف PHI گیر افتاده است. بررسی دستی مقیاس نمی‌شود. ابزارهای سازمانی بیشتر از اکثر کمک‌هزینه‌ها هزینه دارند. مجموعه داده‌ها قفل می‌مانند یا به‌درستی پاک‌سازی نمی‌شوند.

پردازش دسته‌ای مبتنی بر توکن تحقیق در مقیاس بزرگ را امکان‌پذیر می‌کند. مراکز دانشگاهی و محققان مستقل همان دقت سیستم‌های بیمارستانی بزرگ را دریافت می‌کنند. با بودجه کمک‌هزینه استاندارد.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.