Wymóg 18 identyfikatorów
Zasada prywatności HIPAA (45 CFR Section 164.514) określa metodę anonimizacji Safe Harbor: aby zanonimizować chronione informacje zdrowotne, należy usunąć 18 konkretnych kategorii identyfikatorów. Metoda Safe Harbor jest jedną z dwóch podejść do anonimizacji HIPAA; jest częściej stosowana, ponieważ zgodność jest deterministyczna — jeśli wszystkie 18 kategorii zostanie usuniętych, dane są zanonimizowane zgodnie z prawem.
18 kategorii:
- Imiona
- Dane geograficzne (mniejsze niż stan — w tym adres uliczny, miasto, powiat, kod pocztowy)
- Daty (z wyjątkiem roku) związane z osobą — urodziny, przyjęcie, wypis, śmierć
- Numery telefonów
- Numery faksów
- Adresy e-mail
- Numery ubezpieczenia społecznego
- Numery rekordów medycznych (MRN)
- Numery beneficjentów planu zdrowotnego
- Numery kont
- Numery certyfikatów/licencji
- Identyfikatory pojazdów i numery seryjne
- Identyfikatory urządzeń i numery seryjne
- URL-e
- Adresy IP
- Identyfikatory biometryczne (odciski palców, wzory głosowe)
- Zdjęcia twarzy i porównywalne obrazy
- Każdy inny unikalny numer identyfikacyjny lub kod
Większość narzędzi do wykrywania PII niezawodnie wykrywa kategorie 1, 4, 6 i 7 — imiona, numery telefonów, adresy e-mail i numery SSN. Systematycznie zawodzą w przypadku kategorii 8, 9, 10, 11, 13 i 18.
Luka w wykrywaniu MRN
Numery rekordów medycznych są wyraźnie wymienione jako identyfikator PHI (kategoria 8). Format MRN jest specyficzny dla instytucji — nie ma ustandaryzowanego krajowego formatu. Szpital A używa 7-cyfrowej liczby całkowitej. Szpital B używa "PT-YYYYNNNN", gdzie YYYY to rok, a NNNN to numer sekwencyjny. Szpital C używa alfanumerycznego ciągu 8 znaków. Szpital D używa "MRN: " po którym następuje 9-cyfrowa liczba.
Ogólne narzędzie do wykrywania PII, które nie zna formatu MRN Szpitala B, nie wykryje "PT-2024-8847" jako identyfikatora PHI. Dokument zawierający ten MRN będzie traktowany jako zanonimizowany po standardowym przetwarzaniu — gdy tak nie jest.
Tworzy to tryb awarii zgodności, który jest niewidoczny dla organizacji: anonimizacja wydaje się być zakończona, ponieważ narzędzie nie zgłosiło żadnych naruszeń. Brak wykrycia jest problemem.
Rozwiązanie z niestandardowym podmiotem
Organizacje opieki zdrowotnej, które potrzebują wykrywania MRN, mają trzy opcje. Po pierwsze, wdrożyć wykrywanie w Presidio bezpośrednio — co wymaga wiedzy z zakresu programowania w Pythonie i ciągłej konserwacji w miarę ewolucji formatów MRN. Po drugie, utrzymać krok ręcznej weryfikacji specjalnie dla MRN — co tworzy systematyczny słaby punkt w procesie anonimizacji. Po trzecie, użyć systemu, który zapewnia tworzenie niestandardowych podmiotów wspomagane przez AI bez konieczności programowania.
Podejście z pomocą wzorców AI: zespół informatyki klinicznej dostarcza 5 przykładowych wartości MRN (SVHS-0012345, SVHS-0987654, SVHS-1122334, SVHS-4455667, SVHS-8899001) i prosi o wzór wykrywania. AI generuje regex — SVHS-d{7} — i waliduje go na podstawie dostarczonych przykładów. Wzór jest zapisywany w presecie zgodności HIPAA zespołu. Wszystkie kolejne sesje anonimizacji automatycznie wykrywają ten format MRN.
To samo podejście ma zastosowanie do innych identyfikatorów specyficznych dla instytucji: formaty numerów beneficjentów planu zdrowotnego, formaty numerów seryjnych sprzętu oraz wszelkie zastrzeżone kody identyfikacyjne specyficzne dla organizacji.
Źródła: