By · Last updated 2026-04-02

Itzuli BlogeraOsasuna

LLMek PHI Klinikoaren %50 Galtzen Dute

2025eko ikerketa batek aurkitu zuen LLMek PHI kliniko guztizkoaren %50 baino gehiago galtzen dutela hizkuntza anitzeko dokumentuetan. ChatGPT sarrerak %34,8k datu sentikorrak ditu.

April 2, 20269 min irakurri
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

%50eko Galera-Tasaren Arazoa

2025eko azterketa batek (arXiv:2509.14464) erregistro klinikoetan LLM tresnak probatu zituen. Emaitzak txarrak ziren. Tresna hauek PHI kliniko guztizkoaren %50 baino gehiago galdu zituzten hizkuntza anitzeko dokumentuetan. Arrazoia sinplea da. LLMak testu-irteerarako eraikita daude. Ez daude HIPAA-k eskatzen duen goitibeherako detekzio-atazarako eraikita.

HIPAA Safe Harbor-ek 18 identifikatzaile mota babestuen zerrenda dauka. Izenak, datak, telefono-zenbakiak, SSNak, MRNak, osasun-planen IDak, gailuen IDak eta IP helbideak. Bakoitzak bere detekzio-logika behar du.

Ohar klinikoek hori zailago egiten dute. Har dezagun adibide hau: "Gaixoa John D., JDatea 4/12/67, MRN 1234567, 03/15/24an onartu, Dr. Smithek ECG agindu zuen." Esaldi bakarra. Bost identifikatzaile babesturen. Gehienak forma laburrak erabiltzen dituzte. Esanahi kliniko horrendako eraikitako modelo batek detekzio-ataza horretan askotan huts egiten du.

LLMek Zer Galtzen Duten eta Zergatik

LLM tresnak modu zehaztuan huts egiten dute erregistro klinikoetan.

Forma laburrak: Ohar klinikoek laburdura erabiltzen dute. JDatea, MRN eta Gaixoa forma ohikoak dira. Esanahi kliniko horrendako ajustatutako modelo batek "Gaixoa John D." ez du izen gisa markatu. Datu sentikoren erauzketa helburu ezberdina behar du.

Testuinguruaren araberako datak: Ez dira data guztiak arrisku berbera. "67 urte" adierazle leuna da. "JDatea 4/12/67" identifikatzaile babestua zuzenean da. "03/15/24" onarpen-data gisa ere babestua dago. Patroi-erkaketa bakarrik ez da nahiko.

EBez besteko formatuak: Cyberhaven-ek (2025 Q4) aurkitu zuen ChatGPT sarrera guztien %34,8k datu sentikorrak dituztela, hizkuntza anitzeko PII barne. Osasungintzan, honek esan nahi du EBez besteko erregistro IDak, eskualdeko data-formatuak eta tokiko osasun-identifikatzaile motak. EBn entrenatutako tresnak hauek etengabe galtzen dituzte.

Ospitaleko identifikatzaile pertsonalizatuak: Ospitaleek euren MRN formatuak, langile-IDak eta gune-kodeak erabiltzen dituzte. Hauek ez daude NER entrenamenduko datu estandarretan. Entitate-laguntza pertsonalizaturik ez duen tresna batek ez ditu hauek aurkituko.

Ikerketako Datu-Multzoaren Arriskua

500.000 oharretatik datu-multzo ikertzailea eraikitzen ari den ospitale batek benetako betetze-arazo bat du. HIPAAk datu desidentifikatuentzako "arrisku oso txiki" estandarra eskatzen du. Identifikatzaile babestuen erdia galtzen duen tresna batek ezin du estandar hori bete.

Ikerketa-artxiboak ez dira datu garbiak. Oharrek sail asko, aldi-tarte asko eta batzuetan hizkuntzak hartzen dituzte. Fakturazio-datetan funtzionatzen duen tresnak ohar narratiboetan huts egin dezake. Testu libreko datu sentikorrek ez dute eremuaren etiketarik.

IRB onarpenak eskaera gehiago gehitzen ditu. Erakundeek erabilitako metodoa, kendutako identifikatzaile motak eta egindako egiaztapenak erakutsi behar dituzte. Erregistroen erdia galtzen duen tresnak ezin ditu eskaera horiek bete.

Ikusi gure betetze-ikuspegi orokorra eta segurtasun-praktikak anonym.legal-ek HIPAA lana nola laguntzen duen jakiteko.

Hiru Geruzako Konponbidea

2025eko azterketak patroi argi bat aurkitu zuen. Galera-tasa baxuenak zituzten tresnek hiru detekzio-geruza erabiltzen zituzten.

Lehenengo geruza - regex: Identifikatzaile egituratuak aurkitzen ditu. SSNak, MRNak, telefono-zenbakiak, osasun-planen IDak. Formatu finkoak fidagarriak dira.

Bigarren geruza - NER: Transformer modeloak erabiltzen ditu. Ohar narratiboko izenak, datak eta datu sentikorrak aurkitzen ditu. Regex-ek ezin duen tokian funtzionatzen du.

Hirugarren geruza - entitate pertsonalizatuak: Gune-espezifikoak kudeatzen ditu. MRN patroi propietarioak, langile-IDak, instalazio-kodeak. Modelo estandarrek ez dituzte hauek hartzen.

ML tresna hutsek forma laburrak eta ez-ingelesezko testuan degradatzen dira. Regex tresna hutsek eremuaren etiketarik ez duten datu sentikorrak galtzen dituzte. Ez bat ez bestea ez da bakarrik nahiko.

Hiru geruzako diseinuak soilik lortu zituen azterketako %5 baino gutxiagoko galera-tasak. Hori da HIPAA Safe Harbor betetzeko muga.

Ikusi gure gida ikerketarako HIPAA Safe Harbor desidentifikazioaz hurrengo pausuetarako.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.