By · Last updated 2026-02-24

Bloga DönSağlık Hizmetleri

PHI Tespiti: Snow Labs %96 vs GPT-4o

Kimlik gizleme araçları arasında büyük doğruluk farkları var. ECIR 2025 kıyaslamaları F1 skorlarının %79 ile %96 arasında değiştiğini gösteriyor. Neden önemli ve araçları nasıl değerlendirirsiniz öğrenin.

February 24, 20267 dk okuma
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

2026 için güncellendi

Tüm Kimlik Gizleme Araçları Eşit Değildir

PHI kimlik gizlemede tek önemli ölçüt doğruluktur. %4'lük bir fark küçük görünür. Ama bir milyon kayıtta bu, 40.000 ifşa olmuş hasta demektir.

ECIR 2025 kıyaslamaları, önde gelen araçlar arasında büyük doğruluk farkları ortaya koydu. Bu sonuçlar her sağlık sektörü satın alma kararını şekillendirmelidir.

ECIR 2025 Kıyaslama Sonuçları

<!-- VERIFIED-EXTERNAL: John Snow Labs ECIR 2025 Text2Story Workshop paper -->
AraçF1 SkoruKesinlikGeri Çağırma
John Snow Labs%96%95%97
Azure AI%91%90%92
AWS Comprehend Medical%83%81%85
GPT-4o%79%82%76

F1 skoru iki şeyi bir arada ölçer. Kesinlik: işaretlenen öğelerin kaçı gerçek PHI'ydi. Geri çağırma: gerçek PHI öğelerinin kaçı bulundu.

  • Düşük kesinlik, aşırı redaksiyon ve bağlam kaybı anlamına gelir.
  • Düşük geri çağırma, gözden kaçan PHI demektir — bu bir ihlaldir.

Farkın Nedenleri

Eğitim Verisi Önemlidir

John Snow Labs klinik notlar üzerinde eğitilir. Bu notlar dağınık ve kısaltmalarla doludur. GPT-4o ise çok çeşitli metinler üzerinde eğitilmiştir. Klinik veri için tasarlanmamıştır.

AraçEğitim Odağı
John Snow LabsSağlık sektörüne özgü, klinik notlar
Azure AIGenel tıbbi + klinik
AWS Comprehend MedicalGenel tıbbi varlıklar
GPT-4oGeniş eğitim, sağlık sektörüne özgü değil

Varlık Kapsamı Farklılık Gösterir

Her araç aynı PHI türlerini bulmaz.

VarlıkJohn SnowAzureAWSGPT-4o
Hasta adlarıEvetEvetEvetEvet
Tıbbi kayıt numaralarıEvetEvetSınırlıSınırlı
İlaç dozajlarıEvetEvetEvetKısmen
Prosedür kodlarıEvetEvetSınırlıHayır
Klinik kısaltmalarEvetKısmenHayırKısmen
Aile üyelerinin adlarıEvetEvetKısmenKısmen

Bağlamı Doğru Anlamak Zordur

Şu klinik notu ele alalım:

"Hasta, Smith'in ilacını aldığını bildiriyor. Dr. Johnson dozu artırmayı öneriyor."

İyi bir PHI aracının burada üç şey yapması gerekir:

  1. "Smith"i bir marka adı olarak okumak, hasta adı olarak değil.
  2. "Dr. Johnson"ı redakte edilecek sağlayıcı adı olarak işaretlemek.
  3. "Hasta"nın bir isim değil, bir rol etiketi olduğunu bilmek.

GPT-4o bu vakaları kaçırır. Bu da geri çağırmasını %76'ya düşürür.

Düşük Doğruluğun Maliyeti

%79'dan %96'ya geçmek, işlenen her milyon kayıtta 170.000 kaydın ifşa riskini ortadan kaldırır.

<!-- VERIFIED: arithmetic derived from ECIR 2025 benchmark figures -->
DoğrulukKayıt SayısıPHI İfşası
%961.000.00040.000
%911.000.00090.000
%831.000.000170.000
%791.000.000210.000

HIPAA Cezaları İfşa Miktarıyla Orantılıdır

<!-- VERIFIED-EXTERNAL: HIPAA Journal penalty tiers / 45 CFR 160.404 -->
KademeNedenİhlal Başına Ceza
1Farkında değil$100–$50.000
2Makul neden$1.000–$50.000
3İhmalkar, düzeltilmiş$10.000–$50.000
4İhmalkar, düzeltilmemiş$50.000+

Piyasada %96 araçlar varken %79'luk bir araç tercih etmek, HHS kuralları kapsamında kasıtlı ihmal sayılabilir. Fark bilinmektedir. Daha iyi araç mevcuttur.

Hibrit Boru Hattı Doğruluğu Nasıl Artırır

Hiçbir tek yöntem tüm PHI türlerini bulamaz. Hibrit bir boru hattı yöntemleri üst üste koyar. Her biri diğerlerinin bıraktığı boşlukları doldurur.

``` Girdi Metni ↓ [Regex Desenleri] — Yapılandırılmış veri: SSN, MRN, tarihler ↓ [spaCy NER] — İsimler, konumlar, kuruluşlar ↓ [Transformer Modelleri] — Bağlama bağımlı varlıklar ↓ [Tıbbi Sözlükler] — Sağlık sektörüne özgü terimler ↓ Birleştirilmiş Sonuçlar (en yüksek güven kazanır) ```

YöntemGüçlü YanlarZayıf Yanlar
RegexYapılandırılmış veri için mükemmelBağlam işleme yok
spaCyHızlı, yaygın varlıklarSınırlı tıbbi kelime dağarcığı
TransformerlarBağlam farkındalıklı, yüksek geri çağırmaDaha yavaş
SözlüklerTam tıbbi terimlerStatik, güncelleme gerektirir

Her yöntem diğerlerinin kaçırdığını yakalar. Bunun nasıl çalıştığını güvenlik uyumluluk sayfasında ve yasal uyumluluk belgelerinde görün.

Herhangi Bir Satıcıya Sorulacak Sorular

İmzalamadan önce beş şey sorun:

  1. Klinik notlarda F1 skoru nedir? Üçüncü taraf verileri isteyin. Belirsiz iddiaları reddedin.
  2. Hangi varlık türleri? 18 HIPAA Güvenli Liman tanımlayıcısının tamamı kapsanmalıdır.
  3. Kısaltmaları nasıl işliyorsunuz? "Pt," "Dx" ve "Hx"nin doğru çözümlenmesi gerekir.
  4. Aile üyesi PHI'sını yakalıyor musunuz? "Annede diyabet var" PHI'dır. Pek çok araç bunu atlar.
  5. Tüm not formatlarını destekliyor musunuz? İlerleme notları, taburculuk özetleri ve radyoloji raporları birbirinden farklıdır.

Dikkat edilmesi gereken kırmızı bayraklar:

  • Belirli doğruluk rakamları yok
  • Yalnızca temiz, yapılandırılmış veride test
  • Sağlık eğitimi verisi yok
  • Az sayıda varlık türü
  • HIPAA Güvenli Liman doğrulaması yok

Araçları Kendiniz Test Etme

Dört adımda kendi testinizi çalıştırın.

1. Adım — Veri seti oluşturun. Farklı uzmanlık alanlarından kimlik gizlenmiş notlar kullanın. 18 HIPAA türünün tamamını ve kısaltmalar, aile adları gibi uç vakaları kapsayın.

2. Adım — Altın standart belirleyin. Uzmanlar her PHI öğesini türü ve tam konumuyla işaretler.

3. Adım — Her aracı çalıştırın. Çıktıyı altın standartla karşılaştırın. Kesinlik, geri çağırma ve F1'i puanlayın.

4. Adım — Hataları inceleyin. Eksikleri tür, bağlam ve formata göre gruplandırın. Bu, her aracın nerede başarısız olduğunu gösterir.

Sonuç

ECIR 2025 verileri açıktır. 17 puanlık fark — %96'ya karşı %79 — milyonda 170.000 fazla ifşa kayıt anlamına gelir. Araç seçimi, ölçekte en büyük risk değişkenidir.

Bir PHI tespit aracı seçerken:

  • Klinik metinde belirli doğruluk verisi talep edin
  • Tam HIPAA Güvenli Liman kapsamını onaylayın
  • Kendi belge formatlarınızda test edin
  • Tek yöntemli araçlar yerine hibrit boru hatlarını tercih edin

Tokenizasyonun nasıl çalıştığını token sistemi belgelerinde okuyun. Sık sorulan sorular SSS'de yer almaktadır.


anonym.legal, belgeler herhangi bir yapay zeka aracına ulaşmadan önce PHI'yı tokenlarla değiştirir. İsimler, tarihler ve kayıt numaraları sizin tarafınızda değiştirilir. Sonuçlar gerçek ayrıntılarla geri gelir — yalnızca size. Fiyatlandırmayı inceleyin.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.