anonym.legal
Назад на блоготЗдравство

LLM PHI Стопа на пропушта: Зошто Claude PHI откривање...

Болница што користи Claude 3.5 за анонимизирање на 50,000 пациентски записи вели дека нејзина PHI miss-rate е 1.2%...

April 2, 20269 мин читање
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

HIPAA PHI Дефиниција

Protected Health Information (PHI) според HIPAA вклучува:

  1. Идентификатори: Имиња, SSN, датум на раѓање, адреса, телефонски номер, email
  2. Медицински идентификатори: Историја на болести, лекови, дијагноза, медицински записи
  3. Финансиски информации: Здравствено осигурување номер, висина на плаќања
  4. Биометриска информација: Отпечатоци, ретинална скенирање, ДНК

Claude 3.5 vs GPT-4 PHI Откривање

Claude 3.5:

  • Дизајнирана со фокус на здравствена грижа
  • Обучена на медицински текст од MEDLINE, ClinicalTrials.gov
  • PHI miss-rate: 1.2% (заболен)
  • Препознава редакирачи термини: "пациент XX", "Mr. [REDACTED]"

GPT-4:

  • Генерална алатка за разговорот
  • Обучена на интернет текст (не медицински текст)
  • PHI miss-rate: 3.8% (повисока)
  • Миси пациентски записи што содржат јаргон: "sx s/p CABG" (симптом по корнарна артерна обиду)

Медицински Јаргон Примери

PHI што е лесно за Claude, но тешко за GPT-4:

  • "Pt presents w/ r/o MI" - Пациент потеклу со Rule-Out миокардијален инфаркт
  • "Abd pain x 3 days" - Абдоминална болка во 3 денови
  • "PERRLA" - Pupil Equal, Round, Reactive to Light and Accommodation
  • "A&O x 3" - Alert and Oriented x 3 (место, време, личност)

ГPT-4 може не препознава дека "Abd" е абдоминална болка, што е PHI контекст.

Claude препознава дека "Abd" во медицински контекст е телесен дел и медицински состојба.

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.