블로그로 돌아가기의료

정규식 전문가 없이 HIPAA MRN 탐지하기

모든 병원의 MRN 형식은 다릅니다. Memorial은 MRN:XXXXXXX, St. Mary's는 PT-YYYYY, 대학병원은 UHN-XXXXXXXXXX를 사용합니다.

George CurtaJune 4, 20266 분 읽기

HIPAA de-identificationMRN patternhealthcare ITAI pattern generationPHI detection

정규식 전문가 없이 HIPAA MRN 탐지하기

병원 MRN 형식은 표준 PII 도구에 없습니다. 5분 안에 추가하는 방법을 소개합니다. 코드 불필요.

의료 IT 팀은 다른 업종에는 없는 HIPAA 문제에 직면합니다. 가장 탐지해야 할 ID인 의무기록번호(MRN)가 병원이 자체적으로 설정한 형식입니다. 전국 공통 표준이 없습니다.

HIPAA 비식별화 프로젝트는 모두 커스텀 설정이 필요합니다. 없으면 MRN이 '비식별화된' 파일에서 탐지되지 않고 통과됩니다.

다중 시설 MRN 문제

합병으로 구성된 병원 네트워크에는 레거시 EHR 시스템이 있습니다. 각 시스템마다 고유한 MRN 형식이 있습니다:

Memorial Hospital (Epic): MRN:XXXXXXX — 접두사 포함 7자리
St. Mary's (Cerner): PT-YYYYY — 환자 접두사 포함 5자리
대학병원 (Meditech): UHN-XXXXXXXXXX — 10자리 영숫자 혼합
클리닉 (독립형 EMR): C\d{5} — 문자 C + 5자리

HIPAA Safe Harbor는 18가지 모든 ID 유형을 제거하도록 요구합니다. 8번 항목이 의무기록번호입니다. 형식을 모르는 도구는 이를 놓칩니다. 파일이 깨끗해 보입니다. 실제로는 그렇지 않습니다.

ServiceNow 의료 커뮤니티에서 이 문제를 정확히 지적한 바 있습니다. 표준 도구는 SSN과 전화번호를 잡아냅니다. 시설 MRN은 매번 놓칩니다.

정규식 장벽

많은 HIPAA 도구의 오픈소스 기반인 Microsoft Presidio에 커스텀 규칙을 추가하려면 실제 기술이 필요합니다:

PatternRecognizer 클래스를 알아야 합니다
Python 문법으로 정규식을 작성해야 합니다
YAML 설정 파일을 작성해야 합니다
신뢰도 점수를 조정해야 합니다
Python 스크립트를 테스트하고 디버그해야 합니다

MRN 형식을 아는 컴플라이언스 담당자는 혼자서 이 작업을 할 수 없습니다. 수정 작업이 엔지니어링 티켓이 됩니다. 대기열에서 6~8주를 기다립니다. 공백은 계속 열려 있습니다.

AI 지원 형식 생성

더 빠른 방법이 있습니다. 형식을 자연어로 설명하면 작동하는 정규식을 받을 수 있습니다.

단계:

커스텀 엔티티 빌더 열기
예시 제공: "우리 MRN은 이렇게 생겼습니다: MRN:1234567, MRN:9876543, MRN:0001234"
AI가 규칙 생성: MRN:\d{7}
샘플 기록 10개로 테스트
모든 MRN 탐지됨? 저장 및 배포.

4개 MRN 형식이 있는 네트워크의 경우:

Memorial Hospital → MRN:\d{7}
St. Mary's → PT-\d{5}
대학병원 → UHN-[A-Z0-9]{10}
클리닉 → C\d{5}

4개 커스텀 엔티티 생성. 프리셋으로 묶기. 모든 파일에 실행. 소요 시간: 하루 오후.

전체 사용 가이드는 코드 없이 HIPAA 파이프라인에 커스텀 MRN 탐지 추가하기를 참조하세요.

Safe Harbor 검증

HIPAA Safe Harbor는 적용 기관이 데이터로 특정인을 식별할 수 있다는 '실제 지식'이 없어야 한다고 규정합니다. (45 CFR §164.514(b))

검증은 커스텀 규칙이 18가지 모든 ID 유형을 커버함을 보여줍니다.

1단계: 샘플 추출. 각 시설에서 100개 기록을 확보하세요. 기간과 부서를 혼합하세요.

2단계: 탐지 실행. 커스텀 규칙으로 400개 문서를 모두 처리하세요.

3단계: 인간 확인. 20개 문서를 직접 검토하세요 (5% 샘플). 놓친 MRN과 오탐을 확인하세요.

4단계: 규칙 정교화. MRN을 놓쳤다면? 형식을 넓히세요. 오탐이 너무 많다면? 단어 경계를 추가하세요.

5단계: 기록. 규칙, 샘플 크기, 결과, 날짜를 기록하세요. 이 기록이 Safe Harbor 증거입니다.

문서화 방법은 설명 가능한 마스킹과 HIPAA 감사 추적을 참조하세요.

전체 Safe Harbor 커버리지

MRN 탐지 수정 후 18가지 카테고리 전체를 확인하세요.

카테고리	표준 도구	커스텀 필요?
1. 이름	NER 모델	불필요
2. 지리 데이터	위치 탐지	주 수준은 불필요; 시설 코드는 필요
3. 날짜	날짜 탐지	불필요
4. 전화번호	전화 탐지	불필요
5. 팩스 번호	전화 탐지	불필요
6. 이메일 주소	이메일 탐지	불필요
7. 주민등록번호	SSN 탐지	불필요
8. 의무기록번호	미탑재	필요 — 시설별
9. 건강보험 회원 번호	부분 지원	종종 필요 — 보험사별
10. 계정 번호	부분 지원	종종 필요 — 청구 형식
11. 면허 번호	부분 지원	종종 필요 — 주별
12. 차량 ID	부분 지원	임상 문서에서 드묾
13. 기기 ID	부분 지원	기록에 기기가 있으면 필요
14. 웹 URL	URL 탐지	불필요
15. IP 주소	IP 탐지	불필요
16. 생체 ID	텍스트 맥락	퇴원 기록에서 드묾
17. 사진	이미지 전용	텍스트 범위 외
18. 기타 고유 ID	미탑재	필요 — 시설별

임상 텍스트에서는 8, 9, 10, 18번 카테고리가 가장 자주 커스텀 설정이 필요합니다.

임상 문서 맥락

퇴원 요약, 임상 기록, 수술 보고서가 연구에 공유되는 주요 파일입니다. 다음 정보를 담고 있습니다:

헤더와 푸터의 MRN
청구 섹션의 계정 번호
모든 사건의 날짜 — 입원, 시술, 검사, 약물
의사 이름과 DEA 번호
의뢰 의사 정보
보험 회원 ID

시설별 형식을 위한 커스텀 규칙이 표준 형식을 위한 내장 규칙과 결합하면 완전한 Safe Harbor 커버리지가 실현됩니다.

결론

커스텀 규칙 없는 HIPAA 비식별화는 Safe Harbor 비식별화가 아닙니다. 모든 병원의 MRN 형식은 고유합니다. 표준 도구는 이를 놓칩니다. 컴플라이언스 공백은 실재하며 닫기 전까지 열려 있습니다.

AI 형식 생성은 수정 시간을 엔지니어링 6~8주에서 컴플라이언스 작업 하루 오후로 줄입니다. 형식을 설명하세요. 실제 기록으로 테스트하세요. 배포하세요. 끝.

출처

관련 기사

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor requires removing medical record numbers — but MRN formats are not standardized. Epic, Cerner, and Meditech all use different formats.

HIPAA Safe Harbor De-ID at Scale

HIPAA Safe Harbor requires removing 18 specific PHI identifier categories. Academic medical centers need de-identification at scale but existing tools.

ISO 27001 & HIPAA BAAs for Healthcare

HIPAA Business Associate Agreements require 'satisfactory assurances' of appropriate safeguards. ISO 27001 maps directly to HIPAA 164.

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

We follow these rules

GDPR (EU 2016/679).
ISO/IEC 27001:2022.
NIS2 (EU 2022/2555).
HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our company HQ is in Saarbrücken, Germany. Our servers run in Hetzner's Falkenstein datacenter.

Hetzner holds ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

We never sell your information to third parties.
We never train models on what you upload.
We never keep your work after you delete it.
We never share keys with any outside firm.
We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.