By · Last updated 2026-02-24

Bumalik sa BlogHealthcare

Pagtuklas ng PHI: Snow Labs 96% kumpara sa GPT-4o

Hindi pantay-pantay ang lahat ng tool sa pag-de-identify. Ipinapakita ng ECIR 2025 benchmarks ang mga F1 score mula 79% hanggang 96%. Alamin kung bakit mahalaga ang katumpakan at paano susuriin ang mga tool.

February 24, 20267 min basahin
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Na-update para sa 2026

Hindi Pantay-Pantay ang Lahat ng Tool sa Pag-De-Identify

Ang katumpakan ang tanging sukatan na mahalaga para sa pag-de-identify ng PHI. Mukhang maliit ang 4% na agwat. Sa isang milyong rekord, iyon ay 40,000 na nakalantad na pasyente.

Ipinapakita ng mga benchmark ng ECIR 2025 ang malawak na pagkakaiba ng katumpakan sa mga nangungunang tool. Dapat itong hubugin ang bawat desisyon sa pagbili sa sektor ng pangangalagang pangkalusugan.

Mga Resulta ng Benchmark ng ECIR 2025

<!-- VERIFIED-EXTERNAL: John Snow Labs ECIR 2025 Text2Story Workshop paper -->
ToolF1-ScorePrecisionRecall
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

Pinagsasama ng F1-score ang dalawang bagay. Precision: gaano karami sa mga na-flag na aytem ang tunay na PHI. Recall: gaano karami sa tunay na PHI ang natagpuan.

  • Mababang precision ay nangangahulugang labis na redaksyon at nawawalang konteksto.
  • Mababang recall ay nangangahulugang napalampas na PHI — isang paglabag.

Bakit May Pagkakaiba

Mahalaga ang Data ng Pagsasanay

Nag-sasanay ang John Snow Labs sa mga klinikal na tala. Magulong-magulo ang mga talang ito at puno ng mga maikling anyo. Nag-sasanay ang GPT-4o sa malawak na halo ng teksto. Hindi ito itinayo para sa klinikal na datos.

ToolPokus ng Pagsasanay
John Snow LabsPartikular sa pangangalagang pangkalusugan, mga klinikal na tala
Azure AIPangkalahatang medikal + klinikal
AWS Comprehend MedicalPangkalahatang medikal na entidad
GPT-4oMalawak na pagsasanay, hindi partikular sa pangangalagang pangkalusugan

Nag-iiba ang Saklaw ng Entidad

Hindi lahat ng tool ay nakakahanap ng parehong uri ng PHI.

EntidadJohn SnowAzureAWSGPT-4o
Mga pangalan ng pasyenteOoOoOoOo
Mga numero ng medikal na rekordOoOoLimitadoLimitado
Mga dosis ng gamotOoOoOoBahagi
Mga code ng pamamaraanOoOoLimitadoHindi
Mga klinikal na pagdadaglatOoBahagiHindiBahagi
Mga pangalan ng miyembro ng pamilyaOoOoBahagiBahagi

Mahirap Makuha ang Konteksto nang Tama

Halimbawa ang klinikal na talang ito:

"Iniuulat ng pasyente na iniinom ang gamot ni Smith. Inirerekomenda ni Dr. Johnson na dagdagan ang dosis."

Tatlong bagay ang dapat gawin ng isang mahusay na tool sa PHI dito:

  1. Basahin ang "Smith" bilang pangalan ng tatak, hindi ng pasyente.
  2. I-flag ang "Dr. Johnson" bilang pangalan ng provider na dapat i-redact.
  3. Malaman na ang "Pasyente" ay isang label ng tungkulin, hindi isang pangalan.

Napapalalagpas ng GPT-4o ang mga kasong ito. Itinataas nito ang recall sa 76%.

Ang Gastos ng Mababang Katumpakan

Ang paglipat mula sa 79% hanggang 96% ay nagbabawas ng exposure ng 170,000 rekord bawat milyong pinoproseso.

<!-- VERIFIED: arithmetic derived from ECIR 2025 benchmark figures -->
KatumpakanMga RekordExposure ng PHI
96%1,000,00040,000
91%1,000,00090,000
83%1,000,000170,000
79%1,000,000210,000

Sumusukat ang Mga Parusa ng HIPAA sa Exposure

<!-- VERIFIED-EXTERNAL: HIPAA Journal penalty tiers / 45 CFR 160.404 -->
AntasSanhiParusa Bawat Paglabag
1Hindi alam$100–$50,000
2Makatwirang dahilan$1,000–$50,000
3Sinadyang pagpapabaya, naayos$10,000–$50,000
4Sinadyang pagpapabaya, hindi naayos$50,000+

Ang pagpili ng 79% na tool habang umiiral ang mga 96% na tool ay maaaring maging sinadyang pagpapabaya sa ilalim ng mga panuntunan ng HHS. Kilala na ang agwat. May mas mahusay na tool sa merkado.

Paano Pinapataas ng Hybrid Pipeline ang Katumpakan

Walang iisang pamamaraan na nakakahanap ng lahat ng uri ng PHI. Isang hybrid pipeline ang nagtatambak ng mga pamamaraan. Pinupunan ng bawat isa ang mga puwang na naiwan ng iba.

Input Text
    ↓
[Regex Patterns] — Structured data: SSN, MRN, dates
    ↓
[spaCy NER] — Names, locations, organizations
    ↓
[Transformer Models] — Context-dependent entities
    ↓
[Medical Dictionaries] — Healthcare-specific terms
    ↓
Merged Results (highest confidence wins)
PamamaraanLakasKahinaan
RegexPerpekto para sa structured dataWalang paghawak ng konteksto
spaCyMabilis, karaniwang entidadLimitadong bokabularyo ng medisina
TransformersMay kamalayan sa konteksto, mataas na recallMas mabagal
Mga DiksyunaryoBuong medikal na terminoStatic, nangangailangan ng mga update

Hinahuli ng bawat pamamaraan ang hindi nahuhuli ng iba. Tingnan kung paano ito gumagana sa pahina ng pagsunod sa seguridad at mga dokumento ng legal na pagsunod.

Mga Tanong na Itatanong sa Anumang Vendor

Bago ka pumirma, itanong ang limang bagay:

  1. Ano ang F1-score sa mga klinikal na tala? Kumuha ng datos ng third party. Tanggihan ang mga malabong pahayag.
  2. Aling mga uri ng entidad? Lahat ng 18 identifier ng HIPAA Safe Harbor ay dapat saklawin.
  3. Paano mo hinahawakan ang mga pagdadaglat? Ang "Pt," "Dx," at "Hx" ay nangangailangan ng tamang resolusyon.
  4. Nahuhuli mo ba ang PHI ng miyembro ng pamilya? Ang "May diabetes ang ina" ay PHI. Maraming tool ang napapalalagpas ito.
  5. Sinusuportahan mo ba ang lahat ng format ng tala? Ang mga tala sa pag-unlad, mga buod ng paglabas, at mga ulat ng radyolohiya ay lubhang magkakaiba.

Mga pulang bandila na dapat bantayan:

  • Walang tiyak na mga numero ng katumpakan
  • Pagsubok lamang sa malinis, structured na datos
  • Walang datos ng pagsasanay sa pangangalagang pangkalusugan
  • Iilang uri ng entidad
  • Walang validation ng HIPAA Safe Harbor

Pagsusuri ng mga Tool nang Ikaw Mismo

Patakbuhin ang iyong sariling pagsubok sa apat na hakbang.

Hakbang 1 — Bumuo ng dataset. Gumamit ng mga de-identified na tala mula sa maraming espesyalidad. Saklawin ang lahat ng 18 uri ng HIPAA kasama ang mga edge case tulad ng mga maikling anyo at mga pangalan ng pamilya.

Hakbang 2 — Magtakda ng pamantayang ginto. Minarkahan ng mga eksperto ang bawat aytem ng PHI na may uri at eksaktong saklaw.

Hakbang 3 — Patakbuhin ang bawat tool. Ikumpara ang output sa pamantayang ginto. Iskor ang precision, recall, at F1.

Hakbang 4 — Pag-aralan ang mga pagkabigo. I-grupo ang mga palampas ayon sa uri, konteksto, at format. Ipinapakita nito kung saan nabibigo ang bawat tool.

Konklusyon

Malinaw ang datos ng ECIR 2025. Ang 17-puntong agwat — 96% kumpara sa 79% — ay nangangahulugang 170,000 karagdagang nakalantad na rekord bawat milyon. Ang pagpili ng tool ang pinakamalaking variable ng panganib sa malaking sukat.

Kapag pumili ka ng tool sa pagtuklas ng PHI:

  • Humingi ng tiyak na datos ng katumpakan sa klinikal na teksto
  • Kumpirmahin ang buong saklaw ng HIPAA Safe Harbor
  • Subukan sa iyong sariling mga format ng dokumento
  • Pumili ng mga hybrid na pipeline kaysa sa mga tool na gumagamit ng iisang pamamaraan

Basahin kung paano gumagana ang tokenization sa mga dokumento ng sistema ng token. Ang mga karaniwang tanong ay nasa FAQ.


Pinapalitan ng anonym.legal ang PHI ng mga token bago makarating ang mga dokumento sa anumang AI tool. Ang mga pangalan, petsa, at numero ng rekord ay pinagpalitan sa iyong panig. Ang mga resulta ay bumabalik na may mga tunay na detalye na naibalik — para sa iyo lamang. Tuklasin ang pagpepresyo.

Mga Pinagmulan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.