Рукописні форми та OCR: виявлення PII в медичних та страхових документах
Виклик рукописних медичних документів
Великі медичні центри мають архіви, що містять мільйони рукописних медичних записів, сканованих у 1990-х та 2000-х роках. HIPAA Safe Harbor вимагає деідентифікації — але оцифровані рукописні документи представляють унікальні технічні виклики:
Помилки OCR, що впливають на виявлення PII:
- «John» → «Iohn» або «l0hn» (подібні символи: 1/l/I, 0/O)
- «123-45-6789» → «l23-4S-6789» (OCR-помилки)
- «Dr. Smith» → «Dr5mith» (відсутній пробіл)
- Дати: «01/15/1985» → «Ol/l5/l9B5"
Ці помилки знижують стандартну точність виявлення PII (регулярний вираз) на 23% для відсканованих документів.
Підхід до ланцюжка обробки
Крок 1: Покращення якості OCR
- Попередня обробка зображення: видалення фону, збільшення контрасту
- OCR з кількома двигунами (Tesseract + Google Vision API) → відбір найбільш впевненого виводу
- Постобробка OCR: словникова корекція для медичного лексикону
Крок 2: Виявлення PII із толерантністю до помилок
- Нечіткий пошук регулярних виразів: SSN-шаблон із tolerance на 1 помилку символу
- Контекстне виявлення: «пацієнт:» поруч з рядком → виявляти як потенційне ім'я
- NER-моделі, навчені на OCR-зашумлених медичних текстах
Джерела: