anonym.legal

By · Last updated 2026-02-24

Վերադառնալ բլոգինԱռողջապահություն

PHI հայտնաբերում. Snow Labs 96% ընդդեմ GPT-4o

Ոչ բոլոր ապաիդենտիֆիկացման գործիքներն են հավասար: ECIR 2025 թեստերը ցույց են տալիս F1 ցուցանիշներ 79%-ից մինչև 96%: Պարզեք, թե ինչու է ճշգրտությունը կարևոր և ինչպես գնահատել գործիքները:

February 24, 20267 րոպե կարդալ
PHI detectionde-identificationNER accuracyHIPAAbenchmarks

Թարմացված 2026-ի համար

Ոչ բոլոր ապաիդենտիֆիկացման գործիքներն են հավասար

Ճշգրտությունը PHI ապաիդենտիֆիկացման միակ կարևոր ցուցանիշն է: 4%-անոց տարբերությունը փոքր է թվում: Բայց մեկ միլիոն գրառման դեպքում դա 40,000 բացահայտված հիվանդ է:

ECIR 2025 թեստերը ցույց են տալիս ճշգրտության լայն բացեր առաջատար գործիքների միջև: Այս արդյունքները պետք է ձևավորեն բժշկական ոլորտի յուրաքանչյուր ձեռքբերման որոշում:

ECIR 2025 թեստի արդյունքներ

<!-- VERIFIED-EXTERNAL: John Snow Labs ECIR 2025 Text2Story Workshop paper -->
ԳործիքF1-ցուցանիշՃշտությունԾածկույթ
John Snow Labs96%95%97%
Azure AI91%90%92%
AWS Comprehend Medical83%81%85%
GPT-4o79%82%76%

F1-ցուցանիշը համատեղում է երկու բան: Ճշտություն. քանի՞ նշված տարրը իրական PHI էր: Ծածկույթ. քանի՞ իրական PHI տարր հայտնաբերվեց:

  • Ցածր ճշտությունը նշանակում է գերավելորդ ռեդակտավորում և կորցրած համատեքստ:
  • Ցածր ծածկույթը նշանակում է բաց թողնված PHI — արտահոսք:

Ինչու կա բացը

Կարևոր են ուսուցման տվյալները

John Snow Labs-ն ուսուցանվում է կլինիկական նշումների վրա: Այս նշումները անկանոն են և լի կարճ ձևերով: GPT-4o-ն ուսուցանվում է տեքստի լայն խառնուրդի վրա: Այն ստեղծված չէ կլինիկական տվյալների համար:

ԳործիքՈւսուցման ոլորտ
John Snow LabsԲժշկությանը հատուկ, կլինիկական նշումներ
Azure AIԸնդհանուր բժշկական + կլինիկական
AWS Comprehend MedicalԸնդհանուր բժշկական սուբյեկտներ
GPT-4oԼայն ուսուցում, ոչ բժշկությանը հատուկ

Սուբյեկտի ծածկույթը տատանվում է

Ոչ բոլոր գործիքներն են գտնում PHI-ի նույն տեսակները:

ՍուբյեկտJohn SnowAzureAWSGPT-4o
Հիվանդի անուններԱյոԱյոԱյոԱյո
Բժշկական հաշվառման համարներԱյոԱյոՍահմանափակՍահմանափակ
Դեղամիջոցի դոզաներԱյոԱյոԱյոՄասնակի
Ընթացակարգային կոդերԱյոԱյոՍահmанафакՈչ
Կլինիկական հապավումներԱյոՄասnakkиՈչՄasnaкки
Ընտانиqи anдamnеров именаАйоАйоMasnaккиMasnaкки

Համатеqsteqstеqst

Возьмите это клинClin:

"Hиwанд hivandеt Смит lar medmedицин: Дocs. Johnson lar medzos doza laravers."

Lav PHI tool:

  1. Karchi "Smith"-ы irop brand anun, oč hivand.
  2. Dṙošaki "Doc. Johnson"-ы vorpуs bujhkar anun:
  3. Giti, vor "Hivand"-ы der label e, oč anun:

GPT-4o-ы bacc e thunum aйs deper. Ays dzadkuythi hasnatum 76%:

Zetс zezm corect accuracy uchun

79%-iden 96% ancel nvaзецum e azdecutyune 170,000 record per million:

<!-- VERIFIED: arithmetic derived from ECIR 2025 benchmark figures -->
ՃшgrittGrarumerPHI azdecut
96%1,000,00040,000
91%1,000,00090,000
83%1,000,000170,000
79%1,000,000210,000

HIPAA tuyжeri mezhanumy azdecutyun het

<!-- VERIFIED-EXTERNAL: HIPAA Journal penalty tiers / 45 CFR 160.404 -->
MakardakPatcharTuyj khakhtutyun
1Antegak$100–$50,000
2Voghjamir patchar$1,000–$50,000
3Kamavorakan anfuтhyun, ughghvatz$10,000–$50,000
4Kamavorakan anfuтhyun, chuгhghvatz$50,000+

Eerb 96%-anoc gorcikyler en shutchayt, 79%-anoc gorcik entrer HHS kanonnery kam 4-rd makardaki tuyji voroshi artadrel: Bacy haytnab e: Aveli lav gorcik shukayum ka:

Inchpes hybrid pipeline-n barchratsnum e чshgrittutyune

Voch mi method-i petaky PHI types chka beri: Hybrid pipeline-n metotneri vra shertavorelye lratsnum e banery, vor mytusner bac en thunum:

Muktayin텍sт
    ↓
[Regex namushner] — Kartucvatskayin data. SSN, MRN, amsатhiver
    ↓
[spaCy NER] — Anuner, vaгher, kazmakerputyunner
    ↓
[Transformer modelner] — Hamatekstayin subyektner
    ↓
[Bzshkakan bararanner] — Bzshkutyanyayn hatak terminner
    ↓
Miadzulvatz ardyunker (amenabardzr vstathutyamb hetevoghy)
MetodUzhegh koxmerTuyl koxmer
RegexKartucvatskayin data-yi kataryalHamatekst chi kartavorum
spaCyArag, enthanur subyektnerBzshkakan baravar sаhmanafak
TransformersHamatekst-uzhenagal, bardzr dzadkuytAveli dandagh
BararannerLriv bzshkakan terminnerStatik, thearmacumner petitryun e

Yuraqanchyur metod bnazum e ayn, inch myrusalsa bac e thunum: Tes inch pes e sra ashkhatume 安 compliance ejyum ev iravakan hamapataskhanutyyan fastaththtumnerum:

Harcer, vor petk e узղnel yekand matakarari

Naxqan stordagreli, harcrec hing ban:

  1. Inч F1-cuc klinikalakan nshumneri hamar? Stecut erorord koxmi taxa: Merjec anqashт petqumerов:
  2. Vor subyekti tесaknerа? HIPAA Safe Harbor-i bolor 18 nuynahapumneri petk е kardum lini:
  3. Inchpes eк kartaverum hapavumnere? "Pt", "Dx" ev "Hx" petk e chjit meknabanplutyun:
  4. Haytnaberu՞m eq yntanyat andami PHI: "Mayrs unum e diabetum" PHI e: Shat gorcikyner bac en thunum:
  5. Agjakcereq bolor nshumneri dzevachaperov? Gnaciki, arjakunm'an, radiologiayin hshtakyag ev bolor shakhalner shaт тarberum en:

Karmir droshaker, vorum uшhаdrutyun dardzel:

  • Чshgrittutyyan konkret tsver chkan
  • Fоrzotutyune miain maqur, karucvatskayин data-yi vra
  • Bzshkakan ushucman tsver chkan
  • Qich subyekti tesaker
  • HIPAA Safe Harbor hrecumе chka

Gorcikneri andznayin fоrzotutyun

Forzarek khorhrdatkan vorogayin 4 qaylov:

Qayl 1 — Karucek tvals bazay: Ushkaretsek apeidentifкatsvatsvats nshumnera shatazan mayaruchutjunnerik: Yzadkuyt e HIPAA-i bolor 18 tesakerov, aynchinchev ezrakayum depkvov:

Qayl 2 — Kapek vochinkayakan stандarт: Masnagetnere nshanum en PHI-i yuraqanchyur tаrri tesakov ev chjit yngraroytov:

Qayl 3 — Gorcarkecek yuraqanchyur gorcik: Karmir ardyunk-n mastar ketsek вochinkayakan stандartn het: Gnahatel chshgrittutyuny, dzadkuyt-n ev F1:

Qayl 4 — Vеrluzhe chafolutjunnere: Khmbagrurek bzhatrumere teki tesakov, hamateksтov ev dzevachapov: Ays uyts e тalis, tе vor teki azdal e yuraqanchyur gorcik:

Yeзrakacutyun

ECIR 2025 tverkery parp en: 17 kataryan bac — 96% enddem 79% — nshanum e 170,000 hnarvord bacarahaytvats grarrum per million: Gorciqi entrutyuny amenamaкardak riskayın amenamaкardak ampl e:

PHI haytnаberuman gorcik entrukhqum:

  • Pataharec koncret chshgrittutyyan tverkery klinikakan teksti vra
  • Hetevecek HIPAA Safe Harbor-i лрiv tsakoghutjuny
  • Forzarek dzez sexаkan fastaththtumnerum
  • Entrez hybrid pipeline-ner mi metod gorcikneri pashtone

Kardacek, tе inchpes e ashxatem tokenavоrumy token hamakargn e nkaragrum: Hatuk tesvats harcere՝ FAQ-um:


anonym.legal-y PHI-n poxarinum e tokenneri okhov nafev fastaththtumnery hasnum en AI gorciqi: Anunerа, amsativer ev haschakarman hamarnery poxanakum en dzеr kaghmanik: Ardyunnery veradardznum en chjit mankrcutyunneri het — miain dzez hamar: Uzhasumnasirek goraczaykumni:

Agbyurner

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.