Problém: Mapovací súbor je slabý bod
Výskumníci pseudonymizujú pacientske údaje:
- Pacient ID: John Doe → Pseudonym ID: XYZ789
- Mapovací súbor: {John Doe: XYZ789, Jane Smith: ABC123, ...}
Problém: Mapovací súbor je slabý bod:
- Ak sa hacker dostane do mapovacieho súboru, všetci pacienti sú re-identifikovaní
- Ak sa mapovací súbor stratí alebo nesprávne upraví, výskum je nepoužiteľný
- Ak sa výskum publikuje, mapovací súbor musí byť vedený mimo — riziko úniku
Prípad:
- Výskumníci na Oxforde pseudonymizujú 5 000 pacientov diabetu
- Mapovací súbor: {Pacient 1: XYZ789, Pacient 2: ABC123, ...}
- Hacker sa dostane do výskumnej databázy a stiahne mapovací súbor
- Re-identifikácia: Všetci 5 000 pacienti sú identifikovateľní
Riešenie: Reverzibilné šifrovanie bez mapovacieho súboru
Namiesto mapovacieho súboru sa používa:
- Pôvodné pacientske údaje sa šifrujú
- Pseudonym sa generuje z šifrovaného obsahu (deterministické)
- Mapovací súbor sa NE vytvára — Pseudonym je determinizovaný z šifrovania
- Dešifrácia je vhodná iba s šifrovacím kľúčom (v Hardware Security Module)
Príklad:
- Pacient: John Doe, DOB: 01/01/1980, SSN: 123-45-6789
- Zašifrovat:
Encrypt(John Doe + 01/01/1980 + 123-45-6789, key=XYZ) = ENC_12345 - Pseudonym:
Hash(ENC_12345) = PSEUDO_789(deterministicky — vždy rovnakého pre rovnakého pacienta) - Bez mapovacieho súboru: Len zašifrované údaje a PSEUDO_789
Ak je výskumník potrebný znova-identifikovať:
- Výskumník má HSM s šifrovacím kľúčom
- Dešifruje:
Decrypt(ENC_12345, key=XYZ) = John Doe + 01/01/1980 + 123-45-6789 - Identifikácia je úplná bez mapovacieho súboru
Technické detaily
Deterministické šifrovanie
- Deterministické šifrovanie (AES-SIV, AES-GCM-SIV) generuje rovnakú šifrovaný textu za rovnakého kľúča a jasného textu
Encrypt(John Doe, key=XYZ) = ENC_12345— vždy rovnakého ENC_12345 pre John Doe- To umožňuje: Pseudonym = Hash(ENC_12345) — vždy rovnakého pseudonymu
Hardware Security Module (HSM)
- HSM je fyzické zariadenie na serveri, ktorý drží šifrovací kľúč
- Nikdy neopúšťa HSM
- Všetky dešifrácie sa vykonávajú v HSM — data sa neposúva
- Audit trail: Kto sa pokúsil dešifrovať, kedy, s čím kľúčom
Kontrola prístupu
- Iba autorizovaní výskumníci majú prístup na HSM
- Každá dešifrácia si vyžaduje 2-faktorovú autentifikáciu (heslo + hardwarový token)
- Audit trail: Všetky dešifrácie sa zaznamenávajú s menom výskumníka a časom
Príklady
Príklad 1: Dlhodobá výskumná štúdia
- Výskumníci zbieria údaje od 1 000 pacientov počas 10 rokov
- Údaje sa šifrujú — bez mapovacieho súboru
- Pseudonym (PSEUDO_123, PSEUDO_456, atď.) sa generuje determinizované
- Po 10 rokoch — výskumníci sa chcú znova-identifikovať — sú stále schopní
- Bezpečnosť: Ak výskumný server padne — hacker dostane iba šifrované údaje, nie mapovací súbor
Príklad 2: Publikácia s pseudonymami
- Výskumníci publikujú články s pseudonymami
- Mapovací súbor sa NE publikuje
- Čitatelia si nemôžu znova-identifikovať pacientov
- Výskumníci si zachovávajú možnosť znova-identifikácie pre follow-up študie
- Bezpečnosť: Publikovaná article nikdy neobsahuje mapovací súbor
Príklad 3: Audit trail pre GDPR
- Pacient žiada: „Koľkokrát bola moja dešifrácií v tejto štúdii?"
- HSM vracia: Dešifrácia bola 3 krát — Deň 1 (17:00), Deň 50 (10:30), Deň 200 (14:20)
- Bezpečnosť: GDPR transparencia — pacient vidí všetky prístupy na jeho údaje
Regulačný rámec
GDPR
- Bez mapovacieho súboru: Je to anonymizácia (Recital 26) — GDPR neplatí
- S mapovacím súborom: Je to pseudonymizácia — GDPR neplatí, ale Articles 32 + 35 (data protection impact assessment) platí
- Reverzibilné šifrovanie bez mapovacieho súboru: Najbezpečnejšia možnosť — je to pseudonymizácia, ale bez rizika mapovacieho súboru
HIPAA (USA)
- Bez mapovacieho súboru: De-identifikácia podľa HIPAA Safe Harbor — HIPAA neplatí
- S mapovacím súborom: Pseudonymizácia — HIPAA neplatí
- Reverzibilné šifrovanie bez mapovacieho súboru: De-identifikácia s možnosťou re-identifikácie — HIPAA neplatí
Budúcnosť
Reverzibilné šifrovanie bez mapovacieho súboru sa stáva štandardom v medicínskom výskume:
- Nemocnice používajú HSM na šifrovanie pacientskych údajov
- Výskumníci pristupujú iba šifrovaného pseudonymu, bez mapovacieho súboru
- Publikované články sú bezpečné — žiadny mapovací súbor pre čitateľov
Klávesnica správu: Reverzibilné šifrovanie bez mapovacieho súboru — nie mapovací súbor v databáze — je budúcnosťou anonymizácie výskumu.