블로그로 돌아가기의료

정규 표현식 박사 없이 HIPAA 비식별화: AI 지원 MRN 패턴 생성

모든 병원의 MRN 형식은 다릅니다. Memorial은 MRN:XXXXXXX를 사용하고, St. Mary's는 PT-YYYYY를 사용하며, University Hospital은 UHN-XXXXXXXXXX를 사용합니다.

April 20, 20266 분 읽기
HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

정규 표현식 박사 없이 HIPAA 비식별화: AI 지원 MRN 패턴 생성

귀하의 병원 의료 기록 번호 형식은 어떤 표준 PII 도구에도 존재하지 않습니다. 정규 표현식 한 줄도 작성하지 않고 5분 만에 이를 추가하는 방법은 다음과 같습니다.

HIPAA 비식별화를 구현하는 의료 IT 팀은 다른 분야에서는 존재하지 않는 특정 도전에 직면합니다: 그들이 가장 필요로 하는 식별자인 의료 기록 번호는 국가 표준이 아닌 그들 자신의 기관에 의해 정의됩니다.

결과: 의료 시스템에서 HIPAA 비식별화의 모든 구현은 사용자 정의 구성이 필요합니다. 사용자 정의 구성이 없으면 MRN은 "비식별화된" 데이터 세트를 통과하면서 감지되지 않습니다.

다시설 MRN 혼란

수년간의 인수를 통해 구축된 의료 네트워크는 각기 다른 MRN 형식을 가진 레거시 EHR 시스템을 포함하고 있습니다:

  • Memorial Hospital (2015년부터 Epic 사용): MRN:XXXXXXX (접두사가 있는 7자리 숫자)
  • St. Mary's (레거시 Cerner 시스템): PT-YYYYY (환자 접두사가 있는 5자리)
  • University Hospital (Meditech 6.0): UHN-XXXXXXXXXX (10자리 알파벳 숫자)
  • 제휴 클리닉 (독립 EMR): Cd{5} (C 다음에 5자리 숫자)

HIPAA Safe Harbor는 "의료 기록 번호"(카테고리 8)를 포함한 18개 식별자 카테고리를 모두 제거할 것을 요구합니다. 이러한 형식을 모르는 비식별화 도구는 이를 완전히 놓칩니다. "비식별화된" 데이터 세트에는 네 개의 시설 형식에 대한 모든 MRN이 포함되어 있습니다.

ServiceNow의 의료 커뮤니티는 이 문제점을 구체적으로 문서화합니다: PHI를 HR 작업 노트에서 식별하려는 의료 IT 팀은 표준 Presidio 구성이 SSN과 전화번호를 감지하는 동안 시설별 MRN을 완전히 놓친다는 것을 발견합니다.

정규 표현식 장벽

Microsoft Presidio(많은 HIPAA 도구의 오픈 소스 기반)에서 사용자 정의 인식기를 구축하려면 다음이 필요합니다:

  • PatternRecognizer 클래스 이해
  • Python 구문으로 정규 표현식 패턴 작성
  • 인식기 등록을 위한 YAML 파일 구성
  • 신뢰도 점수 및 컨텍스트 단어 이해
  • Python 스크립트로 테스트
  • 실패한 인식기 디버깅

Python 배경이 없는 의료 IT 전문가에게는 상당한 기술 장벽이 됩니다. MRN:XXXXXXX 형식이 무엇인지 정확히 아는 준수 담당자는 Python을 배우거나 엔지니어링 티켓을 기다리지 않고는 Presidio 인식기를 구성할 수 없습니다.

일반적인 결과: 엔지니어링 티켓이 6-8주 대기열에 있는 동안 준수 격차가 열려 있습니다.

AI 지원 패턴 생성

대안: 패턴을 일반 언어로 설명하고 작동하는 정규 표현식을 받습니다.

프로세스:

  1. 사용자 정의 엔티티 빌더 열기
  2. 예제 제공: "이들은 우리 시스템의 MRN 번호처럼 보입니다: MRN:1234567, MRN:9876543, MRN:0001234"
  3. AI가 패턴 생성: MRN:d{7}
  4. 10개의 샘플 퇴원 요약에 대해 테스트
  5. 모든 MRN이 감지되었나요? 저장하고 적용합니다.

네 개의 MRN 형식이 있는 다시설 네트워크의 경우:

  • Memorial Hospital: 형식 설명 → MRN:d{7}
  • St. Mary's: 형식 설명 → PT-d{5}
  • University Hospital: 형식 설명 → UHN-[A-Z0-9]{10}
  • 제휴 클리닉: 형식 설명 → Cd{5}

네 개의 사용자 정의 엔티티를 생성하고 "네트워크 MRN 감지" 프리셋으로 그룹화하여 모든 문서 처리에 적용합니다. 총 시간: 준수 담당자의 오후 작업 한 번.

Safe Harbor 인증을 위한 검증

HIPAA의 Safe Harbor 방법은 피보호 기관이 "정보가 개인을 식별하기 위해 단독으로 또는 다른 정보와 결합하여 사용될 수 있다는 실제 지식이 없어야 한다"고 요구합니다.

사용자 정의 엔티티 기반 감지를 위한 검증은 완전성을 입증합니다:

1단계: 샘플 추출 각 시설 유형에서 100개의 퇴원 요약을 추출합니다. 환자 집단, 부서 및 기간을 혼합합니다.

2단계: 자동 처리 모든 400개의 문서를 사용자 정의 엔티티 감지를 통해 실행합니다.

3단계: 인간 검증 샘플 처리된 문서 20개(5% 샘플)를 수동으로 검토합니다. 다음을 찾습니다:

  • MRN처럼 보이지만 감지되지 않은 문자열(거짓 부정)
  • 잘못 플래그된 비MRN 문자열(거짓 긍정)

4단계: 패턴 정제 거짓 부정이 발견되면: 패턴을 정제하거나 컨텍스트 매칭을 추가합니다. 거짓 긍정이 많으면: 단어 경계 제약 조건이나 컨텍스트 검증을 추가합니다.

5단계: 문서화 기록: 사용자 정의 엔티티 정의, 검증 샘플 크기, 검증 결과 및 검증 날짜. 이 문서는 Safe Harbor 인증을 지원합니다.

MRN을 넘어: 완전한 HIPAA Safe Harbor 커버리지

MRN 감지 격차를 해결한 후 모든 18개 Safe Harbor 카테고리를 완전성을 위해 검토합니다:

카테고리표준 감지사용자 정의 필요?
1. 이름✓ NER 모델아니요
2. 지리적 데이터✓ 위치 감지주에 대해서는 아니요; 시설별 코드에 대해서는 예
3. 날짜✓ 날짜 감지아니요
4. 전화번호✓ 전화 감지아니요
5. 팩스 번호✓ 전화 감지아니요
6. 이메일 주소✓ 이메일 감지아니요
7. SSN✓ SSN 감지아니요
8. 의료 기록 번호✗ 기본값에 없음예 — 기관별
9. 건강 계획 수혜자 번호부분적종종 예 — 운송업체별
10. 계좌 번호부분적종종 예 — 청구 계좌 형식
11. 인증서/면허 번호부분적종종 예 — DEA + 주별
12. 차량 식별자부분적임상 문서에서는 드물게
13. 장치 식별자부분적의료 장치가 문서화된 경우 예
14. 웹 URL✓ URL 감지아니요
15. IP 주소✓ IP 감지아니요
16. 생체 인식 식별자✗ 텍스트 컨텍스트퇴원 요약에서는 드물게
17. 전체 얼굴 사진✗ 이미지 전용텍스트 처리 범위 밖
18. 기타 고유 식별자✗ 기본값에 없음예 — 기관별

임상 텍스트 처리의 경우, 카테고리 8, 9, 10 및 18이 가장 일반적으로 사용자 정의 엔티티 추가를 요구합니다.

임상 문서 컨텍스트

퇴원 요약, 임상 노트 및 수술 보고서는 연구 공유를 위해 HIPAA 비식별화가 필요한 주요 문서입니다. 이러한 문서에는 다음이 포함됩니다:

  • 헤더 및 바닥글에 MRN
  • 청구 섹션에 계좌 번호
  • 전반에 걸쳐 날짜(입원, 절차, 실험실, 약물)
  • 의사 이름 및 DEA 번호
  • 의뢰 의사 정보
  • 보험 회원 ID

기관별 형식(MRN, 계좌 번호)에 대한 사용자 정의 엔티티 감지와 보편적 형식(날짜, 이름, 전화번호)에 대한 표준 감지를 결합하면 HIPAA Safe Harbor에서 요구하는 완전한 커버리지를 제공합니다.

결론

사용자 정의 엔티티 구성이 없는 HIPAA 비식별화는 HIPAA Safe Harbor 비식별화가 아닙니다. 모든 의료 기관의 MRN 형식은 독특합니다. 표준 PII 도구는 이를 놓칩니다. 준수 팀은 이 격차를 해소하기 위해 엔지니어링 대기열을 기다릴 수 없습니다.

AI 지원 패턴 생성은 준수 격차를 6-8주 엔지니어링 시간에서 준수 담당자의 오후 작업 한 번으로 단축합니다. 형식을 설명하고, 샘플에 대해 검증하고, 생산에 배포합니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.