By · Last updated 2026-02-24

Vissza a BlograEgészségügy

PHI-azonosítás pontossága: John Snow Labs 96% vs GPT-4o

Nem minden anonimizáló eszköz egyforma. Az ECIR 2025 eredményei 79%-tól 96%-ig terjedő F1-értékeket mutatnak. Ismerje meg, miért számít a pontosság, és hogyan értékelje az eszközöket.

February 24, 20267 perc olvasás
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Nem minden anonimizáló eszköz egyforma

A PHI-azonosítás értékelésekor a pontosság mindent meghatároz. A felismerési arányban mutatkozó 4%-os különbség aprónak tűnhet – egészen addig, amíg rá nem jövünk, hogy egy millió rekordból álló adatkészlet 4%-a 40 000 kitett rekordot jelent.

Az ECIR 2025 legújabb összehasonlítói drámai különbségeket tárnak fel a vezető eszközök PHI-felismerési pontosságában.

Az ECIR 2025 benchmark eredményei

EszközF1-értékPrecizitásVisszahívás
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

Az F1-érték a precizitást (hány felismert entitás volt helyes) és a visszahívást (hány tényleges entitást ismert fel az eszköz) ötvözi. Mindkettő számít:

  • Alacsony precizitás = téves pozitívak (túlzott kitakarás)
  • Alacsony visszahívás = téves negatívak (kihagyott személyes adat = adatszivárgás)

Miért áll fenn a különbség?

Eltérő tanítási adatok

EszközTanítási fókusz
John Snow LabsEgészségügyi specifikus, klinikai jegyzetek
Azure AIÁltalános orvosi + klinikai
AWS ComprehendÁltalános orvosi entitások
GPT-4oSzéles körű tanítás, nem egészségügyi specifikus

A John Snow Labs modelljeit kifejezetten klinikai dokumentációra tanítják – arra a rendezetlen, rövidített, kontextusfüggő szövegre, amelyet az egészségügy valóban produkál.

Entitástípusok lefedettsége

Nem minden eszköz ismeri fel ugyanazokat az entitásokat:

EntitásJohn SnowAzureAWSGPT-4o
BetegnevekIgenIgenIgenIgen
Egészségügyi nyilvántartási számokIgenIgenKorlátozottKorlátozott
Gyógyszer-adagolásokIgenIgenIgenRészleges
Eljárási kódokIgenIgenKorlátozottNem
Klinikai rövidítésekIgenRészlegesNemRészleges
Családtagok neveiIgenIgenRészlegesRészleges

Az egészségügyi dokumentumok olyan entitásokat tartalmaznak, amelyeket az általános célú eszközök elmulasztanak.

Kontextuskezelés

Vegyük ezt a klinikai feljegyzést:

"A beteg Smith gyógyszerét szedi. Dr. Johnson az adag növelését javasolja."

Egy jó PHI-azonosítónak:

  1. Fel kell ismernie, hogy a "Smith" gyógyszermárka, nem betegnév
  2. Azonosítania kell a "Dr. Johnson"-t mint kitakarandó orvosi nevet
  3. Értenie kell, hogy a "beteg" az alanyra utal, nem egy névre

A GPT-4o nehezen boldogul ezzel a kontextusfüggő osztályozással, ami a 79%-os pontosságot eredményezi.

Az alacsony pontosság költségei

Matematikai hatás

PontosságRekordokKitett PHI
96%1 000 00040 000
91%1 000 00090 000
83%1 000 000170 000
79%1 000 000210 000

A 79%-ról 96%-ra való javulás 170 000 rekorddal csökkenti a kitettséget minden feldolgozott millió rekordra vetítve.

HIPAA-bírságok hatása

A HIPAA-bírságok az érintett személyek számával arányosan emelkednek:

SzintSzabályszegésBírság szabályszegésenként
1Nem tudott róla$100 – $50 000
2Észszerű ok$1 000 – $50 000
3Szándékos mulasztás (javított)$10 000 – $50 000
4Szándékos mulasztás (nem javított)$50 000+

Egy ismerten 79%-os pontosságú eszköz alkalmazása "szándékos mulasztásnak" minősülhet, ha jobb alternatívák elérhetők.

Hogyan hasonlít az anonym.legal?

Hibrid megközelítésünk több felismerési módszert ötvöz:

Felismerési folyamat

``` Bemeneti szöveg ↓ [Regex-minták] – strukturált adatok (TB-szám, orvosi nyilvántartási szám, dátumok) ↓ [spaCy NER] – nevek, helyszínek, szervezetek ↓ [Transformer modellek] – kontextusfüggő entitások ↓ [Orvosi szótárak] – egészségügyi specifikus kifejezések ↓ Összesített eredmények (a legmagasabb megbízhatóságú nyer) ```

Miért működik a hibrid megközelítés?

MódszerErősségekGyengeségek
RegexTökéletes strukturált adatokhozKontextust nem kezeli
spaCyGyors, jó általános entitásokhozKorlátozott orvosi szókincs
TransformerekKontextustudatos, nagy pontosságLassabb, számításigényes
SzótárakTeljes orvosi terminológiaStatikus, frissítést igényel

A négy módszer kombinálásával nagy pontosságot érünk el a sebesség feláldozása nélkül.

Felismerési eszközök értékelése

Kérdések a szállítóknak

  1. Milyen F1-értéket érnek el klinikai feljegyzéseknél?

    • Konkrét számokat kérjen, ne "magas pontosságot"
    • Kérjen harmadik fél által készített benchmark eredményeket
  2. Milyen entitástípusokat azonosítanak?

    • Kérje a teljes listát
    • Ellenőrizze, hogy mind a 18 HIPAA-azonosító le van-e fedve
  3. Hogyan kezelik a klinikai rövidítéseket?

    • "Pt" = beteg
    • "Dx" = diagnózis
    • "Hx" = kórtörténet
  4. Mi a helyzet a családtag adataival?

    • "Az anyja cukorbeteg" PHI-t tartalmaz
    • Sok eszköz ezt kihagyja
  5. Képesek klinikai feljegyzések formátumait feldolgozni?

    • Progressnotes
    • Elbocsátási összefoglalók
    • Laboreredmények
    • Radiológiai leletek

Figyelmeztető jelek

  • Pontossági mutatók megtagadása
  • Kizárólag tiszta, strukturált adatokon végzett tesztelés
  • Nincs egészségügyi specifikus tanítás
  • Korlátozott entitástípus-lefedettség
  • Nincs HIPAA Safe Harbor validáció

Tesztelési módszertan

Ha saját maga szeretné értékelni az eszközöket:

1. lépés: Tesztadatkészlet létrehozása

Tartalmazza:

  • Valós klinikai feljegyzési formátumokat (anonimizálva)
  • Mind a 18 HIPAA-azonosítótípust
  • Szélső eseteket (rövidítések, kontextusfüggők)
  • Több szakterületet (radiológia, patológia, ápolás)

2. lépés: Referencia-annotáció készítése

Humán szakértőkkel annotálja:

  • Minden PHI-példányt
  • Az egyes entitások típusát
  • A határpozíciókat (pontos szövegközi tartomány)

3. lépés: Összehasonlítás futtatása

Minden eszköznél:

  • Dolgozza fel a tesztadatkészletet
  • Hasonlítsa össze a referencia-annotációval
  • Számítsa ki a precizitást, visszahívást és F1-értéket

4. lépés: Hibák elemzése

Kategorizálja a kihagyásokat:

  • Entitástípus szerint (melyik típusok problémásak?)
  • Kontextus szerint (milyen helyzetek okoznak hibákat?)
  • Formátum szerint (mely dokumentumtípusok a nehezebbek?)

Következtetés

Az ECIR 2025 benchmark eredmények bizonyítják, hogy az eszközválasztás számít. A 17 pontos pontosságbeli különbség (96% vs. 79%) nagyobb léptékben több százezer kitett rekordot jelent.

PHI-azonosító eszköz kiválasztásakor:

  1. Követelje meg a konkrét pontossági mutatókat
  2. Ellenőrizze, hogy mind a 18 HIPAA-azonosító le van-e fedve
  3. Tesztelje saját dokumentumformátumain
  4. Fontolja meg a hibrid megközelítéseket az egymetódusú eszközök helyett

Védje betegeit és szervezetét:


Források:

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.