Problem
Zdravniška klinika v Los Angelesu ima 50 000 starinskih klinični zapiskov (PDF). Trebat mora:
- Ekstrahirati diagnoze (za statistiko)
- Izbrisati imena, datume, SSN (za anonimizacijo)
- Zagotoviti HIPAA skladnost
Osnovni pristop:
- Naloži v Google Cloud
- OCR + tekstualna zaznava
- Preusmeri rezultate
Problem: Google Cloud je oblak. HIPAA zahteva "Business Associate Agreement" (BAA), in celo to je tvegano.
Čemu lokalno?
Cloud tveganja
- Podat podatke vežejo zunaj ZDA (GDPR tveganje)
- Obdelava v ZDA (Cloud Act dostop)
- Podatki ostanejo v oblaku ("podatki v mirovanju")
- Neizprosna pravna analiza
Lokalno tveganja
- Varnostno orodje je odgovarnost
- Dostopni nadzor je odgovarnost
- Podatki nikada ne zapustijo klinike
- HIPAA skladnost je jasna
Proces
-
Branje PDF-ja: Lokalno
import pdfplumber with pdfplumber.open('note.pdf') as pdf: text = pdf.pages[0].extract_text() -
OCR za slike: Lokalno
import pytesseract ocr_text = pytesseract.image_to_string(image) -
Zaznava PHI: Lokalno
- Imena: Presidio (ne spletno)
- Datume: Regex lokalno
- SSN: Pattern lokalno
-
Redakcija: Lokalno
# Zamenjaj ime s [PATIENT] text = text.replace(patient_name, "[PATIENT]") -
Pisanje rezultata: Lokalno
with open('output.txt', 'w') as f: f.write(redacted_text)
Učinkovitost
50 000 zapiskov, povprečna stranica: 3 strani 150 000 skupaj stranice
Hitrost obdelave:
- OCR: 2 sekundi/stran = 300 000 sekund = 83 ur
- Redakcija: 0.5 sekund/stran = 75 000 sekund = 21 ur
- Skupaj: 104 ur
Infrastruktura:
- Stroški: 1x Linux strežnik (€2000)
- Električni stroški: €200
- Čas IT: 20 ur
Cloud bi bil:
- OCR stroški: 0.005$/stranica = $750
- Obdelava: dodatno $500
- BAA: dodatno $1000/leto
- Skupaj: €3500+ letno
HIPAA Skladnost
Tehnični nadzor (HIPAA Security Rule)
- Dostop nadzor: Samo IT osebje
- Šifriranje: AES-256 na disku
- Nadzor dostopa: Role-based (RBAC)
- Logging: Vse dostope beležen
Organizacijski nadzor
- Politika: Pisana politika za lokalno obdelavo
- Trening: Samo trenirani osebje
- Pregled: 6 mesečni IT audit
- Dokumentacija: HIPAA Security Plan
Fizični nadzor
- Lokacija: Zaklenjeno pisarno
- Dostop: Samo medicinski IT
- CCTV: Monitoring
Rešitve
Ročni način
- Server + Linux
- Python skripte
- anonym.legal API (lokalno sočasnik)
Preprostejši način
- anonym.legal Desktop App
- Vse lokalno
- HIPAA gotov
- GUI vmesnik
Zaključek
Klinike nimajo potrebe za oblak. Lokalno je hitrejše, cenejše, bolj skladno.