anonym.legal

By · Last updated 2026-04-02

Назад до блогуОхорона здоров'я

Великі мовні моделі пропускають 50% клінічних PHI

Дослідження 2025 року виявило, що LLM пропускають понад 50% клінічних PHI у багатомовних документах. 34,8% всіх запитів до ChatGPT містять конфіденційні дані.

April 2, 20269 хв читання
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Проблема 50% пропущених даних

Огляд 2025 року (arXiv:2509.14464) тестував LLM-інструменти на клінічних записах. Результати виявилися поганими. Ці інструменти пропустили понад 50% клінічних PHI у багатомовних документах. Причина проста. Великі мовні моделі створені для генерації тексту. Вони не призначені для завдань виявлення з високою повнотою, яких вимагає HIPAA.

Метод Safe Harbor HIPAA містить 18 типів захищених ідентифікаторів. Імена, дати, номери телефонів, SSN, MRN, ідентифікатори планів медичного страхування, ідентифікатори пристроїв та IP-адреси. Кожен потребує власної логіки виявлення.

Клінічні нотатки ускладнюють завдання. Розглянемо приклад: «Пацієнт Іван Д., ДН 12.04.67, МРН 1234567, госпіталізований 15.03.24, Д-р Шевченко призначив ЕКГ». Одне речення. П'ять захищених ідентифікаторів. Більшість використовує скорочення. Модель, орієнтована на клінічний зміст, часто не справляється із завданням виявлення.

Що пропускають LLM і чому

LLM-інструменти систематично дають збої на клінічних записах у певних ситуаціях.

Ідентифікатори-скорочення: клінічні нотатки використовують стенографію. ДН, МРН і Пац. — поширені форми. Модель, налаштована на клінічний зміст, може не позначити «Пац. Іван Д.» як ім'я. Видобування конфіденційних даних потребує іншої мети.

Дати залежно від контексту: не всі дати несуть однаковий ризик. «Вік 67» — м'який маркер. «ДН 12.04.67» — прямий захищений ідентифікатор. «15.03.24» як дата госпіталізації також захищена. Одного збігу за шаблоном недостатньо.

Не-американські формати: Cyberhaven (4 кв. 2025) виявив, що 34,8% всіх запитів до ChatGPT містять конфіденційні дані, включаючи багатомовні PII. У охороні здоров'я це означає ідентифікатори записів не-американського формату, регіональні формати дат і місцеві типи ідентифікаторів здоров'я. Інструменти, навчені на американських даних, систематично їх пропускають.

Власні ідентифікатори лікарень: лікарні використовують власні формати МРН, ідентифікатори персоналу та коди об'єктів. Вони відсутні в стандартних навчальних даних NER. Інструмент без підтримки власних сутностей їх не знайде.

Ризик дослідницьких наборів даних

Лікарня, що формує дослідницький набір даних з 500 000 нотаток, стикається з реальною проблемою відповідності. HIPAA вимагає «дуже малого ризику» для деідентифікованих даних. Інструмент, що пропускає половину всіх захищених ідентифікаторів, не може відповідати цій вимозі.

Дослідницькі архіви — це не чисті дані. Нотатки охоплюють різні відділення, часові проміжки, а іноді й мови. Інструмент, що добре працює з даними виставлення рахунків, може дати збій на описових нотатках. Конфіденційні дані у вільному тексті не мають мітки поля.

Дозвіл IRB висуває додаткові вимоги. Установи повинні показати використаний метод, видалені типи ідентифікаторів і проведені перевірки. Інструмент, що пропускає половину всіх записів, не може їх виконати.

Дивіться наш огляд відповідності і практики безпеки щодо підтримки HIPAA в anonym.legal.

Триступеневе виправлення

Огляд 2025 року виявив чіткий шаблон. Інструменти з найнижчим відсотком пропусків використовували три рівні виявлення.

Рівень перший — регекс: знаходить структуровані ідентифікатори. SSN, MRN, номери телефонів, ідентифікатори медичного страхування. Надійний для фіксованих форматів.

Рівень другий — NER: використовує трансформерні моделі. Знаходить імена, дати та конфіденційні дані в описових текстах. Працює там, де регекс не може.

Рівень третій — власні сутності: обробляє специфічні для об'єкта форми. Власні шаблони МРН, ідентифікатори персоналу, коди об'єктів. Жодна стандартна модель їх не охоплює.

Чисті ML-інструменти деградують на скороченнях і не-англійських текстах. Чисті регекс-інструменти пропускають конфіденційні дані без мітки поля. Жодного окремо недостатньо.

Лише триступенева конструкція досягла відсотка пропусків менше 5% в огляді. Це планка для відповідності HIPAA Safe Harbor.

Дивіться наш посібник із деідентифікації HIPAA Safe Harbor для досліджень для наступних кроків.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.