Wymóg protokołu re-identyfikacji IRB
IRB obecnie powszechnie wymaga od badaczy dokumentowania swojego protokołu re-identyfikacji — nie tylko metody de-identyfikacji. Dokumentacja musi jednocześnie udowodnić dwie rzeczy: że zdeidentyfikowany zbiór danych nie może być re-identyfikowany przez nieautoryzowane strony oraz że autoryzowana re-identyfikacja jest możliwa w określonych warunkach.
Ten podwójny wymóg odzwierciedla lekcje z badań longitudinalnych, gdzie klinicznie istotne wyniki pojawiły się w trakcie badania, ale trwała anonimizacja uniemożliwiła ich wykorzystanie. Działania egzekwujące GDPR wzrosły o 56% w 2024 roku (Raport roczny DLA Piper 2025), a zwolnienie badawcze w ramach Artykułu 89 UE wymaga w szczególności pseudonimizacji, a nie trwałej anonimizacji danych badawczych — uznając, że badania wymagają odwracalności w kontrolowanych warunkach.
Artykuł NEJM AI z 2024 roku dotyczący de-identyfikacji opartej na LLM wyraźnie wskazuje na ten problem: "zdeidentyfikowane notatki kliniczne pozostają statystycznie powiązane z tożsamością poprzez te same korelacje, które potwierdzają ich kliniczną użyteczność." Rekomendacja artykułu: pseudonimizacja z udokumentowaną opieką nad kluczem, a nie trwała anonimizacja, w szczególności w celu zachowania możliwości ponownego kontaktu, której wymagają badania longitudinalne.
Kontrolowana architektura re-identyfikacji
Deterministyczne szyfrowanie AES-256-GCM generuje spójne tokeny: ten sam identyfikator pacjenta zawsze szyfruje się do tego samego tokena przy użyciu tego samego klucza. "Patient_001" w ocenie bazowej szyfruje się do "[ENC:f8a2c...]" — ten sam token pojawia się w 3-miesięcznym follow-upie, 12-miesięcznym follow-upie i w końcowej analizie. Zespół badawczy może śledzić dane longitudinalne pacjenta, używając zaszyfrowanego tokena jako stabilnego identyfikatora, bez dostępu do prawdziwej tożsamości.
Ustalenie opieki nad kluczem spełnia wymóg EDPB dotyczący separacji kluczy: zespół badawczy posiada zaszyfrowany zbiór danych. Wyznaczony opiekun danych przechowuje klucz deszyfrujący w osobnym systemie zarządzania kluczami. Żadna ze stron nie może re-identyfikować uczestników bez drugiej — zespół badawczy nie może odszyfrować bez klucza, a opiekun klucza nie może zidentyfikować, które rekordy należą do których uczestników bez danych.
Gdy re-identyfikacja jest autoryzowana (zatwierdzenie przez komisję etyczną, ustalenie obowiązku ostrzeżenia, wymóg regulacyjny), opiekun klucza stosuje klucz do konkretnych zidentyfikowanych rekordów. Każde zdarzenie deszyfracji jest rejestrowane: które rekordy, kiedy, przez kogo, na jakiej podstawie autoryzacji. Dziennik audytu wykazuje zgodność z wymaganiami Artykułu 89 GDPR dotyczącymi udokumentowanych zabezpieczeń.
Praktyczna implementacja
Dla europejskiego centrum badań onkologicznych z kohortą 5 000 pacjentów: zbiór danych badawczy jest anonimizowany przy użyciu odwracalnej kryptografii przed dystrybucją do współpracujących instytucji w trzech krajach. Zespół badawczy każdej instytucji może analizować dane longitudinalne, używając zaszyfrowanych tokenów pacjentów. Klucz jest przechowywany przez inspektora ochrony danych instytucji koordynującej.
Gdy analiza biomarkerów w trakcie badania identyfikuje 47 uczestników z podwyższonymi markerami ryzyka, zatwierdzenie przez komisję etyczną uruchamia formalny wniosek o re-identyfikację. Inspektor ochrony danych deszyfruje 47 konkretnych rekordów. Zespół kliniczny instytucji koordynującej kontaktuje się z 47 rzeczywistymi pacjentami. Tożsamości pozostałych 4 953 uczestników pozostają chronione we wszystkich trzech współpracujących instytucjach.
Źródła: