Neviditělný PII Problém Výzkumných Publikací
Akademické výzkumné papery procházejí peer-review pro metodologickou přesnost, ne pro soulad s ochranou dat. Výsledek: publikované papery rutinně obsahují PII v místech, kde recenzenti nikdy nehledají.
Kategorie Výzkumného PII
Snímky Datové Analýzy: Výzkumníci vkládají snímky jejich analytické práce jako obrázky paperu. Snímek R nebo Python konzole zobrazující datový přehled může zobrazovat zákaznická ID, záznamy lékárny nebo záznamy pacienta.
Příklad: zdravotnický výzkum papír obsahuje snímek head() výstupu datarámce. Prvních 10 řádků obsahuje skutečná patient_id čísla a anonymizované diagnózy. Patient_id čísla jsou PHI pod HIPAA.
Tabulky s Identifikovatelné Záznamy: Výzkumné papery začleňující příkladné záznamy v tabulkách mohou obsahovat identifikovatelné informace. „Tabulka 2: Vzorové záznamy de-identifikovaného datasetu" — ale de-identifikace byla neúplná.
Záznamy Kódu a Metadata: Analytický kód sdílený jako supplementary material může obsahovat:
- Hardcoded cesty souborů odkrývající interní jmenné konvence
- API klíče nebo autentizační tokeny
- Komentáře v kódu citující skutečná zákazník nebo patient jména jako příklady
Zdroje dat: Git repozitory sdílené jako supplementary material uchovávají celou historii commitů — zahrnující data a kód, který byl „smazán" z aktuální verze ale zůstává v historii.
Jak Výzkumníci Změní Praxe
Pre-publikace Přezkum: Před odesláním, proveďte PII přezkum všech supplementary obrázků, tabulek a kódu:
- Spusťte detekci PII na snímcích (OCR + NER)
- Zkontrolujte všechna zákaznická/pacienta ID v tabulkových příkladech
- Prohledejte kód pro hardcoded identifikovatelné hodnoty
Syntetická Data pro Příklady: Nahraďte skutečné vzorové záznamy syntetickými — zachovávající statistické vlastnosti bez skutečných identit. Balíky jako Python Faker generují věrohodné syntetické záznamy.
Git Historie Sanitizace: Před sdílením repozitory veřejně: přepište Git historii aby odstranil PII ze starých commitů. Nástroj BFG Repo Cleaner nebo git-filter-repo pro hromadné smazání.
Zdroje: