By · Last updated 2026-05-25

Itzuli BlogeraOsasuna

HIPAA Safe Harbor De-identifikazioa Eskalan

HIPAA Safe Harborek 18 PHI identifikatzaile kategoria zehatzen kentzeaarekin. Unibertsitate-ospitale-zentroek eskalan de-identifikazioa behar dute, baina lehendik dauden tresnek.

May 25, 20269 min irakurri
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

HIPAA Safe Harbor De-identifikazioa Eskalan: Osasun Ikertzaileen Gida

Unibertsitate mediku-zentro batek 200.000 alta-erregistro garbitu behar ditu. Helburua: birsartzea iragartzeko eredua eraikitzea. Lehendik dagoen tresnaren kostua: urteko $120.000. Datu-lanetarako bekaren aurrekontua: $5.000.

Hutsune hau ohikoa da. Osasun-ikerketek datu-multzo handiak behar dituzte. Datu-multzo horiek osasun-informazio babestua (PHI) dute. PHIak izenak, datak, helbideak eta bestelako xehetasun pertsonalak ditu. PHI kentzeak ikerlariek datuak legalki erabiltzeko aukera ematen die. Baina tresnak ospitale-sistemetarako preziotan daude, ez ikerketa-bekentzat.

HIPAA Safe Harbor: 18 Identifikatzaileak

HIPAAren Safe Harbor metodoak (45 CFR §164.514(b)) 18 PHI mota zerrendatzen ditu. Denak kendu behar dira osasun-datuek 'babestua' izatearen estatusa galdu aurretik. Kentzearen ostean, ikerketa pazientearen baimenik gabe egin daiteke.

Hemen 18 mota guztiak:

  1. Izenak
  2. Estatua baino txikiagoak diren datu geografikoak (posta-kode txiki biztanleetarako 3 digitu arte moztu behar dira)
  3. Urtearen salbuespenez beste data guztiak -- sarrera, alta, jaiotze, heriotza eta beste datak
  4. Telefono-zenbakiak
  5. Fax-zenbakiak
  6. Helbide elektronikoak
  7. Gizarte segurantzaren zenbakiak
  8. Mediku-erregistro-zenbakiak
  9. Osasun-plan onuradunaren zenbakiak
  10. Kontu-zenbakiak
  11. Ziurtagiri eta lizentzia-zenbakiak
  12. Ibilgailu-identifikatzaileak eta serie-zenbakiak
  13. Gailu-identifikatzaileak eta serie-zenbakiak
  14. Web URLak
  15. IP helbideak
  16. Identifikatzaile biometrikoak (hatz-markak, ahots-markak)
  17. Aurpegi osoko argazkiak eta antzeko irudiak
  18. Identifikazio-zenbaki edo kode bakar beste edozein

Lehenengoa bosta alta-erregistro ia guztietan agertzen dira. Guztiak kendu edo aldatu behar dira.

Datak arreta berezia behar dute. Pazientearen data bakoitzak urtea mantendu behar du baina egun eta hilabete zehatzak galdu. '2023ko martxoaren 15a' '2023' bihurtzen da. Iraupena eremu gisa mantendu dezakezu -- baina iturburu-datak desagertu ondoren bakarrik.

Eskala-Arazoa

Osasun-datu-multzo erabilgarriak handiak dira:

  • Birsartzea iragartzea: 50.000-500.000 topaketa
  • Tratamendu-emaitzen lana: 10.000-100.000 paziente baldintza bakoitzeko
  • Droga-efikazia: 5.000-50.000 erregistro
  • Biztanleriaren osasuna: 100.000+ topaketa

Eskuzko berrikuspena eskaila honetan ez da funtzionatzen. 100.000 erregistrotako 5 minutuko berrikuspena 250-2.500 laneko egun behar ditu. Gizakien errorea-tasak %1-5 inguruan daude. Error-tasa txiki batek ere HIPAA arriskua sortzen du. Bi berrikusleren artean datak modu desberdinean tratatzea Safe Harbor estatusa hautsi dezake. Datu-multzo handi batean egiteko erraza da hori.

Garbiketa automatizatua aukera erreal bakarra da. Ohar kliniko desberdinetan aurkitutako 18 mota guztiak harrapatu behar ditu.

Tresna Prezioen Hutsunea

Enpresa-tresnak ospitale-sistemetara zuzenduta daude:

  • Datavant: $100.000+/urtean
  • Veradigm (Allscripts): antzeko prezioak
  • Clinithink CLiX: salmenta-deia bakarrik
  • Syntegra (datu sintetikoak): enpresa prezioa

Saltzaile hauek lege eta betetze-arau taldeekin erakunde handiei saltzen diete. Ikerketa-bekak ez dira beren merkatua.

Tresna libre eta kode irekia existitzen dira baina aditu-ezagutzak behar dituzte:

  • MITRE MIST: doan, baina konfigurazio astuna eta hizkuntza-laguntza mugatua behar du
  • Stanford NLP DEID: ikerketa-mailakoa, Java eta kodetzeko gaitasunak behar ditu
  • i2b2 NLP tresnak: kliniko NLP, konfigurazioa beharrezkoa

Ikerlarien gehiengoak PHI ezabaketa fidagarria instalazio sinplearekin behar du. Kode irekiko tresnek kodetzeko eta hizkuntzalaritzako gaitasunak behar dituzte martxan jartzeko. Balidazio-lana ere behar dute. Enpresa-tresnek beka gehienek onartzen dutena baino gehiago kostatzen dute. Hutsunea errealitate bat da eta ikerketa blokeatzen du.

Bost Urratseko Batch Prozesua

200.000 alta-erregistrotarako, jarraibidezko batch-ikuspegia ondo funtzionatzen du.

1. Urratsa: EHRtik esportatu. Eremu egituratu eta ez-egituratutako eremuak testu edo PDF fitxategi gisa atera topaketa bakoitzeko. Epic, Cerner eta Meditech-ek hori onartzen dute. CSV edo HL7 fitxategiak esportatzen dituzte nota klinikoen eremuak barne.

2. Urratsa: 5.000eko batchak exekutatu. Tamaina honetako batchak azkarrak dira eta etapa bakoitzean berrikuspenerako nahikoa txikiak.

Entitate-motak Safe Harbor-erako ezarri:

  • PERSON (paziente-izenak, oharretan agertzen diren familiako kideak)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (helbideak, posta-kodeak, hiriak -- estatu-mailaren azpiko edozein)
  • DATE (kliniko-data guztiak; 89 urte baino zaharragoak '>89' bihurtzen dira)
  • HEALTHCARE_ID (aseguru-zenbakiak, onuradun-zenbakiak)
  • ACCOUNT_NUMBER

Ohar klinikoen PHI garbiketa batchari buruz gehiago jakiteko, ikusi ohar klinikoak batch batean prozesatu tokiko HIPAA tresnarekin. Gida horrek fitxategi-formatuak eta entitate-doikuntza sakonean estaltzen ditu.

3. Urratsa: Datak urrats bereizia gisa kudeatu. Urteari eutsi. Hilabetea eta eguna kendu. 89 urte baino zaharragoak '>89' ordeztu. Adina eta gaixotasun-bikote arraroak pazienteak berriz identifika ditzakete. Iraupen-eremuak lehenengo kalkulatu -- ospitaleratzeko iraupena, birsartzera iritsi arte. Gero iturburuko datak ezabatu.

4. Urratsa: Lagin egin eta batch bakoitza berrikusi. Batch bakoitzeko 5.000 erregistroren ondoren, 50 erregistro atera gizakien berrikuspenerako. 18 mota guztiak egiaztatu. Testuinguru-elementuak bilatu, ohierretan ikerlari-izenak edo mediku-xehetasun erreferentziatutako. Data kudeaketa Safe Harbor arauei egokitzen dela baieztatu. Aurrera egin aurretik edozein hutsune konpondu.

5. Urratsa: Dokumentatu eta egiaztatu. HIPAAk ezagutza estatistikoa duen norbaitek berri-identifikazioaren arriskua oso txikia dela baiezta dezake. Safe Harbor-erako, kentzen duen taldeak erabaki hori hartzen du. Idatzi entitate-konfigurazioa eta lagin-emaitzak. Gorde IRB erregistroetarako.

Ezabaketa bakoitzaren ikuskatze-erregistroa behar al duzu? Azalpen-ezabaketa HIPAA ikuskatze-erregistroarekin erregistratzea xehetasunez estaltzen du.

Kostu Konparaketa

Enpresa-tresna: $120.000/urtean. Konfigurazioa, prestakuntza, mugagabeko prozesatzea eta betetze-arau laguntza estaltzen ditu.

Batch prozesatzea:

  • 200.000 erregistro x 300 hitz batez bestekoa = 60.000.000 token
  • €0,0001/tokenean: €6.000 prozesatzean
  • Pro plana (€180/urtean) edo Business plana (€348/urtean) proiekturako
  • Ikerlarien berrikuspena: 20-40 ordu
  • Totala: €7.000-8.000 inguru

Enpresa-tresnaren aldean aurrezkia: $111.000-113.000. $120.000n gelditu zen ikerketa $7.000n bideragarri egiten da.

Muga Nagusiak

Testua soilik. Ikuspegio honek testu-oinarritutako PHI kudeatzen du. Irudiak, audioa eta datu biometrikoak (Safe Harbor 13., 16. eta 17. kategoriak) beste tresna batzuk behar dituzte.

Balioztatze beharrezkoa da. Tresna automatizatuek elementu batzuk galtzen dituzte. 200.000 erregistroko %0,1eko galdu-tasak 200 erregistro PHI biziarekin uzten ditu. Hori HIPAA arrisku erreala da. Ez saihestu balidazioa.

Egiaztatu zure pribatutasun-bulegoarekin. Ikerketa-plana ez da garbiketa-metodoa estaltzen. Zentro gehienek PHI kentze-ikuspegia bereiziz berrikusten dute. Gida honek berrikuspena gehitzen du -- ez du ordezkatzen.

Aditu Determinazioa aukera bat da. HIPAAk ere 'Aditu Determinazioaren' bidez garbiketa onartzen du (45 CFR §164.514(b)(1)). Estatistika-aditu batek berri-identifikazioaren arriskua oso txikia dela ziurtatzen du. Bide honek datu-multzo ezohikoentzat egokia da. Ondo funtzionatzen du data guztiak kentzeak denbora-serie-analisia hautsiko lukeenean.

PHI tresna automatizatuen alderatze-ikuspegi baterako, ikusi PHI detekzio-zehaztasun konparaketa.

Ondorioa

Pazienteei lagun diezaiekeen osasun-ikerketa PHI kentze-kostuen atzean trabatu dago. Eskuzko berrikuspena ez da eskalatzen. Enpresa-tresnak beka gehienek onartzen dutena baino gehiago kostatzen dute. Datu-multzoak itxita geratzen dira edo gaizki garbitzen dira.

Token-oinarritutako batch prozesatzeak eskala handiko ikerketa bideragarri egiten du. Unibertsitate-zentroak eta ikerlarien independenteak ospitale-sistema handien zehaztasun bera lortzen dute. Beka estandar baten aurrekontuarekin.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.