anonym.legal

By · Last updated 2026-02-24

Terug na BlogGesondheidsorg

PHI-opsporing: Snow Labs 96% vs GPT-4o

Nie alle de-identifikasie-nutsmiddels is gelyk nie. ECIR 2025-maatstawwe toon F1-tellings van 79% tot 96%. Leer waarom akkuraatheid belangrik is en hoe om nutsmiddels te evalueer.

February 24, 20267 min lees
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Opgedateer vir 2026

Nie Alle De-identifikasie-nutsmiddels Is Gelyk Nie

Akkuraatheid is die enigste maatstaf wat saak maak vir PHI-de-identifikasie. 'n Gaping van 4% lyk klein. Op een miljoen rekords beteken dit 40 000 blootgestelde pasiente.

ECIR 2025-maatstawwe toon wye akkuraatheidsgatings oor toonaangewende nutsmiddels. Hierdie resultate behoort elke gesondheidsorg-aankoopbesluit te beinum.

ECIR 2025-maatstawresultate

<!-- VERIFIED-EXTERNAL: John Snow Labs ECIR 2025 Text2Story Workshop paper -->
NutsmiddelF1-tellingPresisieHerroep
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

F1-telling kombineer twee dinge. Presisie: hoeveel gemerkte items was werklike PHI. Herroep: hoeveel werklike PHI-items is gevind.

  • Lae presisie beteken oortollige redigering en verlore konteks.
  • Lae herroep beteken gemiste PHI -- 'n databasis-oortreding.

Waarom die Gaping Bestaan

Opleidingsdata Maak Saak

John Snow Labs word opgelei op kliniese notas. Hierdie notas is deurmekaar en vol afkortings. GPT-4o word opgelei op 'n bree mengsel van teks. Dit is nie gebou vir kliniese data nie.

NutsmiddelOpleidingsfokus
John Snow LabsGesondheidsorg-spesifiek, kliniese notas
Azure AIAlgemene mediese + kliniese
AWS Comprehend MedicalAlgemene mediese entiteite
GPT-4oBree opleiding, nie gesondheidsorg-spesifiek nie

Entiteitsdekking Verskil

Nie elke nutsmiddel vind dieselfde PHI-tipes nie.

EntiteitJohn SnowAzureAWSGPT-4o
PasientnameJaJaJaJa
Mediese rekordnommersJaJaBeperkBeperk
MedikasiedosisseJaJaJaGedeeltelik
ProsedurekodesJaJaBeperkNee
Kliniese afkortingsJaGedeeltelikNeeGedeeltelik
FamilielidnameJaJaGedeeltelikGedeeltelik

Konteks Is Moeilik om Reg te Kry

Neem hierdie kliniese nota:

"Pasient rapporteer dat hy Smith se medikasie gebruik. Dr. Johnson beveel aan om die dosis te verhoog."

'n Goeie PHI-nutsmiddel moet drie dinge hier doen:

  1. "Smith" lees as 'n handelsnaam, nie 'n pasient nie.
  2. "Dr. Johnson" merk as 'n verskaffer se naam om te redigeer.
  3. Weet dat "Pasient" 'n rolomskrywing is, nie 'n naam nie.

GPT-4o mis hierdie gevalle. Dit stoot herroep na 76%.

Die Koste van Lae Akkuraatheid

Om van 79% na 96% te gaan, verminder blootstelling met 170 000 rekords per miljoen verwerk.

<!-- VERIFIED: arithmetic derived from ECIR 2025 benchmark figures -->
AkkuraatheidRekordsPHI-blootstelling
96%1 000 00040 000
91%1 000 00090 000
83%1 000 000170 000
79%1 000 000210 000

HIPAA-boetes Skaleer Met Blootstelling

<!-- VERIFIED-EXTERNAL: HIPAA Journal penalty tiers / 45 CFR 160.404 -->
VlakOorsaakBoete per Oortreding
1Onbewus$100-$50 000
2Redelike oorsaak$1 000-$50 000
3Opsetlike nalatigheid, reggestel$10 000-$50 000
4Opsetlike nalatigheid, onreggestel$50 000+

Die keuse van 'n 79%-nutsmiddel terwyl 96%-nutsmiddels beskikbaar is, kan onder HHS-reels opsetlike nalatigheid wees. Die gaping is bekend. 'n Beter nutsmiddel is op die mark.

Hoe 'n Hibriede Pyplyn Akkuraatheid Verhoog

Geen enkele metode vind alle PHI-tipes nie. 'n Hibriede pyplyn stapel metodes. Elkeen vul die gapings wat die ander laat.

Invoerteks
    |
[Regex-patrone] -- Gestruktureerde data: SSN, MRN, datums
    |
[spaCy NER] -- Name, liggings, organisasies
    |
[Transformer-modelle] -- Konteksafhanklike entiteite
    |
[Mediese woordeboeke] -- Gesondheidsorg-spesifieke terme
    |
Saamgevoegde resultate (hoogste vertroue wen)
MetodeSterkpunteSwakpunte
RegexPerfek vir gestruktureerde dataGeen kontekshantering nie
spaCyVinnig, algemene entiteiteBeperkte mediese woordeskat
TransformersKonteksbewus, hoe herroepStadiger
WoordeboekeVolledige mediese termeStaties, benodig opdaterings

Elke metode vang wat die ander mis. Sien hoe dit werk op die sekuriteitsnakomingsbladsy en regskonformaliteitsdokumente.

Vrae om Enige Verskaffer Te Stel

Voor jy teken, vra vyf dinge:

  1. Watter F1-telling op kliniese notas? Kry derdeparty-data. Verwerp vae bewerings.
  2. Watter entiteitstipes? Al 18 HIPAA Safe Harbor-identifiseerders moet gedek wees.
  3. Hoe hanteer jy afkortings? "Pt," "Dx," en "Hx" moet korrek opgelos word.
  4. Vang jy familielid-PHI? "Ma het diabetes" is PHI. Baie nutsmiddels mis dit.
  5. Ondersteun jy alle notaformate? Vorderingsnotas, ontslagopsommings en radiologieverslae verskil baie.

Rooi vlae om op te let:

  • Geen spesifieke akkuraatheidsgetalle nie
  • Toetsing slegs op skoon, gestruktureerde data
  • Geen gesondheidsorg-opleidingsdata nie
  • Min entiteitstipes
  • Geen HIPAA Safe Harbor-validasie nie

Nutsmiddels Self Toets

Voer jou eie toets in vier stappe uit.

Stap 1 -- Bou 'n datastel. Gebruik ge-de-identifiseerde notas uit baie spesialiteite. Dek alle 18 HIPAA-tipes plus randgevalle soos afkortings en familielid-name.

Stap 2 -- Stel 'n gouestandaard. Deskundiges merk elke PHI-item met tipe en presiese omvang.

Stap 3 -- Voer elke nutsmiddel uit. Vergelyk uitvoer met die gouestandaard. Gee presisie, herroep en F1 'n telling.

Stap 4 -- Ontleed mislukkings. Groepeer misse per tipe, konteks en formaat. Dit wys waar elke nutsmiddel misluk.

Gevolgtrekking

ECIR 2025-data is duidelik. 'n Gaping van 17 punte -- 96% teenoor 79% -- beteken 170 000 ekstra blootgestelde rekords per miljoen. Nutsmiddelkeuse is die grootste risikovariabele op skaal.

Wanneer jy 'n PHI-opsporingsnutsmiddel kies:

  • Vereis spesifieke akkuraatheidsdata op kliniese teks
  • Bevestig volledige HIPAA Safe Harbor-dekking
  • Toets op jou eie dokumentformate
  • Kies hibriede pyplelyne bo enkelmotode-nutsmiddels

Lees hoe tokenisasie werk in die tokenstelsel-dokumentasie. Algemene vrae is in die FAQ.


anonym.legal vervang PHI met tokens voordat dokumente enige KI-nutsmiddel bereik. Name, datums en rekordnommers word aan jou kant omgeruil. Resultate kom terug met werklike besonderhede herstel -- slegs vir jou. Verken pryse.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.