Bloga DönSağlık Hizmetleri

LLM'lerin Klinik PHI'nın %50'sini Neden Kaçırdığı...

2025 yılında yapılan bir çalışma, LLM'lerin çok dilli belgelerde klinik PHI'nın %50'sinden fazlasını kaçırdığını buldu.

April 2, 20269 dk okuma
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

%50 Kaçırma Oranı Problemi

2025 yılında yapılan bir LLM tabanlı kimlik gizleme araçları anketi (arXiv:2509.14464), genel amaçlı LLM araçlarının çok dilli belgelerde klinik PHI'nın %50'sinden fazlasını kaçırdığını bulmuştur. Bu rakam, temel bir mimari uyumsuzluğu yansıtır: LLM'ler dil anlama ve üretimi için tasarlanmıştır, HIPAA kimlik gizlemenin gerektirdiği yapılandırılmış, yüksek hatırlama gerektiren tanımlama görevleri için değil.

HIPAA Gizlilik Kuralı'nın Güvenli Liman yöntemi, 18 belirli tanımlayıcı kategorisinin kaldırılmasını gerektirir: isimler, coğrafi veriler, tarihler, telefon numaraları, faks numaraları, e-posta adresleri, SSN'ler, tıbbi kayıt numaraları, sağlık planı yararlanıcı numaraları, hesap numaraları, sertifika/lisans numaraları, VIN'ler, cihaz tanımlayıcıları, web URL'leri, IP adresleri, biyometrik tanımlayıcılar, tam yüz fotoğrafları ve diğer herhangi bir benzersiz tanımlayıcı numara veya kod. Bu kategorilerin her biri, belirli algılama mantığı gerektiren yapılandırılmış formatlara sahiptir.

Klinik notlar, zorluğun yoğunlaştığı yerdir. Tipik bir klinik not parçasını düşünün: "Pt. John D., DOB 4/12/67, MRN 1234567, 03/15/24 tarihinde göğüs ağrısı ile ED'ye başvurdu. Önceki Hx: HTN, DM. Dr. Smith ECG istedi." Bu tek cümle, bir isim, doğum tarihi, MRN, kabul tarihi ve tedavi eden doktoru içerir — beş HIPAA tanımlayıcısı, bazıları kısaltılmış biçimde, klinik kısayol içinde yer alır.

LLM'lerin Kaçırdığı ve Neden

Genel amaçlı LLM'ler, klinik PHI üzerinde öngörülebilir kalıplarda başarısız olur.

Kısaltılmış tanımlayıcılar: Klinik notlar standart kısaltmalar kullanır (DOB doğum tarihi için, MRN tıbbi kayıt numarası için, Pt. hasta için) ve bağlamdan bağımsız NER bu kısaltmaları PII işaretleri olarak tanımayabilir. Yukarıdaki notu genel anlama için okuyan bir LLM, klinik anlamı anlar; PHI çıkarımı ile görevlendirilmiş bir LLM, "Pt. John D." ifadesini kısmi bir isim kalıbı olarak kaçırabilir.

Bağlama bağlı tarihler: Klinik notlardaki tarihler, belirli HIPAA önemine sahiptir. "Yaş 67" bir kısmi tanımlayıcıdır ve not edilmelidir. "DOB 4/12/67" PHI'dır. "03/15/24" kabul tarihi olarak PHI'dır. Bunlar, yalnızca tarih kalıbı eşleştirmesi değil, bağlam farkındalığı gerektiren tarih çıkarımını gerektirir.

Bölgesel tanımlayıcı formatları: Cyberhaven tarafından yapılan araştırma (Q4 2025), tüm ChatGPT girdilerinin %34.8'inin çok dilli PII dahil hassas veriler içerdiğini bulmuştur. Sağlık bağlamlarında, bu ABD dışı tıbbi kayıt formatlarını, uluslararası tarih geleneklerini ve ABD odaklı sistemlerin kaçırdığı ülkeye özgü sağlık tanımlayıcı formatlarını içerir.

Özel kurumsal tanımlayıcılar: Sağlık sistemleri, standart NER eğitim verilerinin parçası olmayan özel MRN formatları, çalışan kimlikleri ve tesis kodları kullanır. Özel varlık türü desteği olmayan bir sistem, bunları tespit edemez.

Araştırma Veri Seti Uyum Problemi

500.000 klinik nottan oluşan bir kimlik gizlenmiş araştırma veri seti oluşturan bir hastane sistemi, karmaşık bir riskle karşı karşıyadır. HIPAA, kimlik gizlenmiş araştırma veri setlerinin Güvenli Liman yöntemi altında "çok küçük risk" standardını veya Uzman Belirlemesi altında istatistiksel yaklaşımı karşılamasını gerektirir. PHI'nın %50'sini kaçıran bir sistem, bu standardı karşılamayan bir veri seti üretir — araştırma kurumunu OCR uygulaması ve IRB uyum hatalarıyla karşı karşıya bırakır.

Bir araştırma veri setindeki klinik notlar homojen değildir. Farklı departmanları (kardiyoloji, onkoloji, psikiyatri), farklı dokümantasyon stillerini, farklı zaman dilimlerini ve — çok dilli sağlık sistemlerinde — farklı dilleri kapsar. Yapılandırılmış faturalama verilerinde yeterli performans gösteren bir kimlik gizleme sistemi, PHI'nın etiketlenmiş alanlar yerine anlatı bağlamında göründüğü yapılandırılmamış psikiyatrik ilerleme notlarında başarısız olabilir.

Hibrit Tespit Gereksinimi

2025 araştırma anketi, tutarlı bir kalıp belirledi: En yüksek PHI hatırlama oranına sahip sistemler, yapılandırılmış tanımlayıcı tespiti (SSN'ler, MRN'ler, telefon numaraları için regex) ile bağlamsal NER'yi (anlatı bağlamındaki isimler, tarihler için transformer tabanlı modeller) ve özel varlık desteğini (kuruma özgü tanımlayıcılar) birleştirir.

Saf ML yaklaşımları, iyi biçimlendirilmiş metinlerde yaygın tanımlayıcılarda yüksek hatırlama oranı elde eder ancak kısaltmalarda, nadir tanımlayıcı türlerinde ve İngilizce olmayan metinlerde düşüş gösterir. Saf regex yaklaşımları, yapılandırılmış tanımlayıcılarda yüksek hatırlama oranı elde eder ancak bağlamsal PHI'yı (bir klinik anlatıda unvan ön eki olmadan bahsedilen bir doktorun adı) kaçırır.

Hibrit üç katmanlı mimari — yapılandırılmış tanımlayıcılar için regex, bağlamsal PHI için NLP, çok dilli ve kısaltılmış biçimler için transformer modelleri — anket tarafından HIPAA Güvenli Liman uyumu için uygun %5'ten az kaçırma oranları elde eden bir kalıp olarak belirlenmiştir.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.