50% 누락률 문제

2025년 조사 논문(arXiv:2509.14464)은 임상 기록을 대상으로 LLM 도구를 테스트했습니다. 결과는 나빴습니다. 이 도구들은 다국어 문서에서 임상 PHI의 50% 이상을 놓쳤습니다. 원인은 단순합니다. LLM은 텍스트 출력을 위해 설계되었습니다. HIPAA가 요구하는 높은 재현율의 탐지 작업을 위해 설계된 것이 아닙니다.

HIPAA 세이프 하버는 18가지 보호 식별자 유형을 목록화합니다. 이름, 날짜, 전화번호, SSN, MRN, 건강보험 ID, 기기 ID, IP 주소가 포함됩니다. 각각은 고유한 탐지 로직이 필요합니다.

임상 노트는 이를 더욱 어렵게 만듭니다. 예를 들어: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." 한 문장에 다섯 가지 보호 식별자가 있습니다. 대부분이 약어를 사용합니다. 임상적 의미를 위해 조정된 모델은 종종 이 탐지 작업에서 실패합니다.

LLM이 놓치는 것과 그 이유

LLM 도구는 임상 기록에서 일정한 방식으로 실패합니다.

약어 식별자: 임상 노트는 약어를 사용합니다. DOB, MRN, Pt.는 일반적인 형태입니다. 임상적 의미에 맞게 조정된 모델은 "Pt. John D."를 이름으로 표시하지 않을 수 있습니다. 민감한 데이터 추출에는 다른 목표가 필요합니다.

맥락 의존적 날짜: 모든 날짜가 같은 위험을 초래하지는 않습니다. "Age 67"은 간접적 표지입니다. "DOB 4/12/67"은 직접적인 보호 식별자입니다. 입원일로서의 "03/15/24"도 보호됩니다. 패턴 매칭만으로는 충분하지 않습니다.

비미국 형식: Cyberhaven(Q4 2025)에 따르면 ChatGPT 입력의 34.8%에 민감한 데이터가 포함되어 있으며, 다국어 PII도 포함됩니다. 의료 분야에서 이는 비미국 기록 ID, 지역별 날짜 형식, 현지 건강 ID 유형을 의미합니다. 미국 기반으로 학습된 도구는 이를 일관되게 놓칩니다.

병원 고유 식별자: 병원은 자체 MRN 형식, 직원 ID, 시설 코드를 사용합니다. 이는 표준 NER 학습 데이터에 없습니다. 커스텀 엔티티 지원이 없는 도구는 이를 찾지 못합니다.

연구 데이터셋의 위험

50만 건의 임상 노트로 연구 데이터셋을 구축하는 병원은 실질적인 컴플라이언스 문제에 직면합니다. HIPAA는 비식별화된 데이터에 대해 "매우 낮은 위험" 기준을 요구합니다. 모든 보호 식별자의 절반을 놓치는 도구는 이 기준을 충족할 수 없습니다.

연구 아카이브는 깔끔한 데이터가 아닙니다. 노트는 여러 부서, 시간대, 때로는 언어에 걸쳐 있습니다. 청구 데이터에서 작동하는 도구가 서술형 노트에서 실패할 수 있습니다. 자유 텍스트의 민감한 데이터에는 필드 레이블이 없습니다.

IRB 승인은 추가 요구 사항을 부과합니다. 기관은 사용된 방법, 제거된 식별자 유형, 수행된 검사를 보여줘야 합니다. 모든 기록의 절반을 놓치는 도구로는 이러한 요구 사항을 충족할 수 없습니다.

anonym.legal이 HIPAA 작업을 어떻게 지원하는지는 당사의 컴플라이언스 개요와 보안 사례를 참조하십시오.

3계층 해결책

2025년 조사는 명확한 패턴을 발견했습니다. 누락률이 가장 낮은 도구는 세 가지 탐지 계층을 사용했습니다.

1계층 — 정규식: 구조화된 식별자를 찾습니다. SSN, MRN, 전화번호, 건강보험 ID. 고정 형식에서 신뢰할 수 있습니다.

2계층 — NER: 트랜스포머 모델을 사용합니다. 서술형 텍스트에서 이름, 날짜, 민감한 데이터를 찾습니다. 정규식이 작동할 수 없는 곳에서 작동합니다.

3계층 — 커스텀 엔티티: 시설 고유 형식을 처리합니다. 독자적인 MRN 패턴, 직원 ID, 시설 코드. 어떤 표준 모델도 이를 커버하지 않습니다.

순수 ML 도구는 약어와 비영어 텍스트에서 성능이 저하됩니다. 순수 정규식 도구는 필드 레이블 없이 민감한 데이터를 놓칩니다. 어느 것도 단독으로는 충분하지 않습니다.

조사에서 5% 미만의 누락률에 도달한 것은 3계층 설계뿐이었습니다. 이것이 HIPAA 세이프 하버 컴플라이언스의 기준입니다.

다음 단계는 연구를 위한 HIPAA 세이프 하버 비식별화 가이드를 참조하십시오.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

LLM은 임상 PHI의 50%를 놓친다

50% 누락률 문제

LLM이 놓치는 것과 그 이유

연구 데이터셋의 위험

3계층 해결책

출처

관련 기사

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

데이터 보호를 시작할 준비가 되셨나요?

LLM은 임상 PHI의 50%를 놓친다

50% 누락률 문제

LLM이 놓치는 것과 그 이유

연구 데이터셋의 위험

3계층 해결책

출처

관련 기사

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow