Ručně Psaný Problém v Zdravotnictví
Navzdory digitalizaci zdravotnický a pojišťovací sektor zpracovává obrovské objemy ručně psané dokumentace:
- Klinické poznámky lékaře psané během konzultace
- Pacientovy vstupní formuláře (přiznání, anamnéza)
- Formuláře souhlasu
- Pojišťovací nároky z menších poskytovatelů
- Příkazy léku z lékáren
Průzkum 2024 amerických zdravotnických systémů: 43 % PII v příchozích dokumentech pochází z ručně psaných zdrojů. Pro menší ambulantní praxe, procento přesahuje 65 %.
Výzvy Přesnosti OCR pro Ručně Psaný Text
Optické rozpoznávání znaků (OCR) pro tištěný text dosahuje 98 %+ přesnosti u moderních motorů. Pro ručně psaný text: 85-92 % přesnost závisí na přehlednosti rukopisu.
15 % chybovost OCR pro ručně psaný text má přímé dopady na HIPAA/GDPR:
Chybně přepsaná jména: „John Smith" přepsaný jako „John Smyth" nebo „J. Smith" může být přehlídnut NER modelem pro jmenná entity.
Chybně přepsaná čísla: SSN „123-45-6789" jako „123-45-6789" je perfektní — ale pokud OCR přečte číslici 6 jako 0: „123-45-0789" není platný SSN formát a může být přehlídnut bez kontextové analýzy.
Chybně přepsaná data: Ručně psaná data jsou obzvláště náchylná k chybám OCR — číslice 1, 7 a handwriting ambiguity.
Pipeline Implementace
Krok 1: Kvalita OCR předzkum Před detekcí PII: hodnoťte OCR skóre spolehlivosti. Nízko spolehlivostní segmenty (< 80%) jsou candidates pro lidský přezkum.
Krok 2: Kontextově citlivá PII detekce Pro formuláře se strukturovanými poli: použijte pole label kontext. Pole označené „Patient Name:" signalizuje, že bezprostředně následující text je jménem pacienta, i pokud OCR přepis je neúplný.
Krok 3: Fuzzy Matching pro Identifikátory Detekce PII pro OCR-zpracovaný text by měla zahrnovat fuzzy matching pro identifikátory SSN, MRN: čísla, která jsou téměř validní (1-2 číslice chybí nebo transponovaný) by měla být označena pro přezkum.
Krok 4: Lidský Přezkum Nízko Spolehlivostního OCR Implementujte human-in-the-loop pro segmenty s OCR spolehlivostí < 85%: přezkumník ověří OCR přepis a PII detekci před archivací.
Zdroje: