%50eko Galera-Tasaren Arazoa

2025eko azterketa batek (arXiv:2509.14464) erregistro klinikoetan LLM tresnak probatu zituen. Emaitzak txarrak ziren. Tresna hauek PHI kliniko guztizkoaren %50 baino gehiago galdu zituzten hizkuntza anitzeko dokumentuetan. Arrazoia sinplea da. LLMak testu-irteerarako eraikita daude. Ez daude HIPAA-k eskatzen duen goitibeherako detekzio-atazarako eraikita.

HIPAA Safe Harbor-ek 18 identifikatzaile mota babestuen zerrenda dauka. Izenak, datak, telefono-zenbakiak, SSNak, MRNak, osasun-planen IDak, gailuen IDak eta IP helbideak. Bakoitzak bere detekzio-logika behar du.

Ohar klinikoek hori zailago egiten dute. Har dezagun adibide hau: "Gaixoa John D., JDatea 4/12/67, MRN 1234567, 03/15/24an onartu, Dr. Smithek ECG agindu zuen." Esaldi bakarra. Bost identifikatzaile babesturen. Gehienak forma laburrak erabiltzen dituzte. Esanahi kliniko horrendako eraikitako modelo batek detekzio-ataza horretan askotan huts egiten du.

LLMek Zer Galtzen Duten eta Zergatik

LLM tresnak modu zehaztuan huts egiten dute erregistro klinikoetan.

Forma laburrak: Ohar klinikoek laburdura erabiltzen dute. JDatea, MRN eta Gaixoa forma ohikoak dira. Esanahi kliniko horrendako ajustatutako modelo batek "Gaixoa John D." ez du izen gisa markatu. Datu sentikoren erauzketa helburu ezberdina behar du.

Testuinguruaren araberako datak: Ez dira data guztiak arrisku berbera. "67 urte" adierazle leuna da. "JDatea 4/12/67" identifikatzaile babestua zuzenean da. "03/15/24" onarpen-data gisa ere babestua dago. Patroi-erkaketa bakarrik ez da nahiko.

EBez besteko formatuak: Cyberhaven-ek (2025 Q4) aurkitu zuen ChatGPT sarrera guztien %34,8k datu sentikorrak dituztela, hizkuntza anitzeko PII barne. Osasungintzan, honek esan nahi du EBez besteko erregistro IDak, eskualdeko data-formatuak eta tokiko osasun-identifikatzaile motak. EBn entrenatutako tresnak hauek etengabe galtzen dituzte.

Ospitaleko identifikatzaile pertsonalizatuak: Ospitaleek euren MRN formatuak, langile-IDak eta gune-kodeak erabiltzen dituzte. Hauek ez daude NER entrenamenduko datu estandarretan. Entitate-laguntza pertsonalizaturik ez duen tresna batek ez ditu hauek aurkituko.

Ikerketako Datu-Multzoaren Arriskua

500.000 oharretatik datu-multzo ikertzailea eraikitzen ari den ospitale batek benetako betetze-arazo bat du. HIPAAk datu desidentifikatuentzako "arrisku oso txiki" estandarra eskatzen du. Identifikatzaile babestuen erdia galtzen duen tresna batek ezin du estandar hori bete.

Ikerketa-artxiboak ez dira datu garbiak. Oharrek sail asko, aldi-tarte asko eta batzuetan hizkuntzak hartzen dituzte. Fakturazio-datetan funtzionatzen duen tresnak ohar narratiboetan huts egin dezake. Testu libreko datu sentikorrek ez dute eremuaren etiketarik.

IRB onarpenak eskaera gehiago gehitzen ditu. Erakundeek erabilitako metodoa, kendutako identifikatzaile motak eta egindako egiaztapenak erakutsi behar dituzte. Erregistroen erdia galtzen duen tresnak ezin ditu eskaera horiek bete.

Ikusi gure betetze-ikuspegi orokorra eta segurtasun-praktikak anonym.legal-ek HIPAA lana nola laguntzen duen jakiteko.

Hiru Geruzako Konponbidea

2025eko azterketak patroi argi bat aurkitu zuen. Galera-tasa baxuenak zituzten tresnek hiru detekzio-geruza erabiltzen zituzten.

Lehenengo geruza - regex: Identifikatzaile egituratuak aurkitzen ditu. SSNak, MRNak, telefono-zenbakiak, osasun-planen IDak. Formatu finkoak fidagarriak dira.

Bigarren geruza - NER: Transformer modeloak erabiltzen ditu. Ohar narratiboko izenak, datak eta datu sentikorrak aurkitzen ditu. Regex-ek ezin duen tokian funtzionatzen du.

Hirugarren geruza - entitate pertsonalizatuak: Gune-espezifikoak kudeatzen ditu. MRN patroi propietarioak, langile-IDak, instalazio-kodeak. Modelo estandarrek ez dituzte hauek hartzen.

ML tresna hutsek forma laburrak eta ez-ingelesezko testuan degradatzen dira. Regex tresna hutsek eremuaren etiketarik ez duten datu sentikorrak galtzen dituzte. Ez bat ez bestea ez da bakarrik nahiko.

Hiru geruzako diseinuak soilik lortu zituen azterketako %5 baino gutxiagoko galera-tasak. Hori da HIPAA Safe Harbor betetzeko muga.

Ikusi gure gida ikerketarako HIPAA Safe Harbor desidentifikazioaz hurrengo pausuetarako.

Iturriak

Lotutako Artikuluak

Osasuna

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

Hasi Probako Bertsioa Ikusi Ezaugarriak

LLMek PHI Klinikoaren %50 Galtzen Dute

%50eko Galera-Tasaren Arazoa

LLMek Zer Galtzen Duten eta Zergatik

Ikerketako Datu-Multzoaren Arriskua

Hiru Geruzako Konponbidea

Iturriak

Lotutako Artikuluak

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Prest zure datuak babesteko?

LLMek PHI Klinikoaren %50 Galtzen Dute

%50eko Galera-Tasaren Arazoa

LLMek Zer Galtzen Duten eta Zergatik

Ikerketako Datu-Multzoaren Arriskua

Hiru Geruzako Konponbidea

Iturriak

Lotutako Artikuluak

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Prest zure datuak babesteko?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow