Problém Longitudinálního De-identifikace
Skutečná anonymizace — odstranění všech 18 HIPAA identifikátorů — je nevratná. Jednou jsou identifikátory odstraněny, není způsob, jak propojit výzkumný záznam zpět na konkrétního účastníka. To je přesně požadavek HIPAA Safe Harbor.
Ale longitudinální výzkum vyžaduje propojení záznamů přes čas:
- Longitudinální studie musí propojit záznam pacienta 2020 se záznamem pacienta 2025
- Bez propojení: výzkumník nemůže sledovat výsledky v čase
- S úplnou anonymizací: propojení je nemožné
Protokol Reverzibilního Šifrování
Řešením je deterministické (reverzibilní) šifrování identifikátorů — ne anonymizace:
Fáze 1: Token generování Pro každého účastníka: vygenerujte kryptografický token ze záznamu pacienta pomocí zašifrovaného hashování s solí:
token = HMAC-SHA256(patient_id || birthdate || site_id, master_key)
HMAC zajišťuje, že:
- Stejný účastník vždy produkuje stejný token (deterministický)
- Odlišní účastníci produkují odlišné tokeny (bez kolize)
- Token nemůže být invertován bez znalosti master_key (jednocestný bez klíče)
Fáze 2: Výzkumný dataset Výzkumný dataset obsahuje tokeny místo skutečných identifikátorů. Záznamy z roku 2020 a 2025 pro stejného účastníka mají stejný token — umožňující longitudinální analýzu.
Fáze 3: Zabezpečení klíče Master_key je uložen v zabezpečeném Key Management System odděleně od výzkumného datasetu. Přístup ke klíči je omezen a protokolován. Klíč umožňuje re-identifikaci pro autorizované účely (sledování, bezpečnostní signalizace).
Zdroje: