Späť na blogZdravotná Starostlivosť

Výskumný Riziko Re-identifikácie: Ako Reverzibilné...

Pseudonymizované výskumné súbory s mapovacím súborom sú ohrozovatelia re-identifikácie.

April 19, 20268 min čítania
research re-identification protocollongitudinal study follow-upIRB pseudonymization requirementcontrolled re-identificationdeterministic encryption

Problém: Mapovací súbor je slabý bod

Výskumníci pseudonymizujú pacientske údaje:

  • Pacient ID: John Doe → Pseudonym ID: XYZ789
  • Mapovací súbor: {John Doe: XYZ789, Jane Smith: ABC123, ...}

Problém: Mapovací súbor je slabý bod:

  1. Ak sa hacker dostane do mapovacieho súboru, všetci pacienti sú re-identifikovaní
  2. Ak sa mapovací súbor stratí alebo nesprávne upraví, výskum je nepoužiteľný
  3. Ak sa výskum publikuje, mapovací súbor musí byť vedený mimo — riziko úniku

Prípad:

  • Výskumníci na Oxforde pseudonymizujú 5 000 pacientov diabetu
  • Mapovací súbor: {Pacient 1: XYZ789, Pacient 2: ABC123, ...}
  • Hacker sa dostane do výskumnej databázy a stiahne mapovací súbor
  • Re-identifikácia: Všetci 5 000 pacienti sú identifikovateľní

Riešenie: Reverzibilné šifrovanie bez mapovacieho súboru

Namiesto mapovacieho súboru sa používa:

  1. Pôvodné pacientske údaje sa šifrujú
  2. Pseudonym sa generuje z šifrovaného obsahu (deterministické)
  3. Mapovací súbor sa NE vytvára — Pseudonym je determinizovaný z šifrovania
  4. Dešifrácia je vhodná iba s šifrovacím kľúčom (v Hardware Security Module)

Príklad:

  • Pacient: John Doe, DOB: 01/01/1980, SSN: 123-45-6789
  • Zašifrovat: Encrypt(John Doe + 01/01/1980 + 123-45-6789, key=XYZ) = ENC_12345
  • Pseudonym: Hash(ENC_12345) = PSEUDO_789 (deterministicky — vždy rovnakého pre rovnakého pacienta)
  • Bez mapovacieho súboru: Len zašifrované údaje a PSEUDO_789

Ak je výskumník potrebný znova-identifikovať:

  • Výskumník má HSM s šifrovacím kľúčom
  • Dešifruje: Decrypt(ENC_12345, key=XYZ) = John Doe + 01/01/1980 + 123-45-6789
  • Identifikácia je úplná bez mapovacieho súboru

Technické detaily

Deterministické šifrovanie

  • Deterministické šifrovanie (AES-SIV, AES-GCM-SIV) generuje rovnakú šifrovaný textu za rovnakého kľúča a jasného textu
  • Encrypt(John Doe, key=XYZ) = ENC_12345 — vždy rovnakého ENC_12345 pre John Doe
  • To umožňuje: Pseudonym = Hash(ENC_12345) — vždy rovnakého pseudonymu

Hardware Security Module (HSM)

  • HSM je fyzické zariadenie na serveri, ktorý drží šifrovací kľúč
  • Nikdy neopúšťa HSM
  • Všetky dešifrácie sa vykonávajú v HSM — data sa neposúva
  • Audit trail: Kto sa pokúsil dešifrovať, kedy, s čím kľúčom

Kontrola prístupu

  • Iba autorizovaní výskumníci majú prístup na HSM
  • Každá dešifrácia si vyžaduje 2-faktorovú autentifikáciu (heslo + hardwarový token)
  • Audit trail: Všetky dešifrácie sa zaznamenávajú s menom výskumníka a časom

Príklady

Príklad 1: Dlhodobá výskumná štúdia

  • Výskumníci zbieria údaje od 1 000 pacientov počas 10 rokov
  • Údaje sa šifrujú — bez mapovacieho súboru
  • Pseudonym (PSEUDO_123, PSEUDO_456, atď.) sa generuje determinizované
  • Po 10 rokoch — výskumníci sa chcú znova-identifikovať — sú stále schopní
  • Bezpečnosť: Ak výskumný server padne — hacker dostane iba šifrované údaje, nie mapovací súbor

Príklad 2: Publikácia s pseudonymami

  • Výskumníci publikujú články s pseudonymami
  • Mapovací súbor sa NE publikuje
  • Čitatelia si nemôžu znova-identifikovať pacientov
  • Výskumníci si zachovávajú možnosť znova-identifikácie pre follow-up študie
  • Bezpečnosť: Publikovaná article nikdy neobsahuje mapovací súbor

Príklad 3: Audit trail pre GDPR

  • Pacient žiada: „Koľkokrát bola moja dešifrácií v tejto štúdii?"
  • HSM vracia: Dešifrácia bola 3 krát — Deň 1 (17:00), Deň 50 (10:30), Deň 200 (14:20)
  • Bezpečnosť: GDPR transparencia — pacient vidí všetky prístupy na jeho údaje

Regulačný rámec

GDPR

  • Bez mapovacieho súboru: Je to anonymizácia (Recital 26) — GDPR neplatí
  • S mapovacím súborom: Je to pseudonymizácia — GDPR neplatí, ale Articles 32 + 35 (data protection impact assessment) platí
  • Reverzibilné šifrovanie bez mapovacieho súboru: Najbezpečnejšia možnosť — je to pseudonymizácia, ale bez rizika mapovacieho súboru

HIPAA (USA)

  • Bez mapovacieho súboru: De-identifikácia podľa HIPAA Safe Harbor — HIPAA neplatí
  • S mapovacím súborom: Pseudonymizácia — HIPAA neplatí
  • Reverzibilné šifrovanie bez mapovacieho súboru: De-identifikácia s možnosťou re-identifikácie — HIPAA neplatí

Budúcnosť

Reverzibilné šifrovanie bez mapovacieho súboru sa stáva štandardom v medicínskom výskume:

  • Nemocnice používajú HSM na šifrovanie pacientskych údajov
  • Výskumníci pristupujú iba šifrovaného pseudonymu, bez mapovacieho súboru
  • Publikované články sú bezpečné — žiadny mapovací súbor pre čitateľov

Klávesnica správu: Reverzibilné šifrovanie bez mapovacieho súboru — nie mapovací súbor v databáze — je budúcnosťou anonymizácie výskumu.

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.