anonym.legal
Назад до блогуОхорона здоров'я

Рукописні форми та OCR: виявлення PII в медичних та...

Охорона здоров'я та страхування: мільярди рукописних форм, оцифрованих через OCR. OCR вводить помилки, що зменшують точність виявлення PII на 23%.

April 21, 20267 хв читання
handwritten formsOCR healthcareHIPAA complianceinsurance documentsdocument automation

Рукописні форми та OCR: виявлення PII в медичних та страхових документах

Виклик рукописних медичних документів

Великі медичні центри мають архіви, що містять мільйони рукописних медичних записів, сканованих у 1990-х та 2000-х роках. HIPAA Safe Harbor вимагає деідентифікації — але оцифровані рукописні документи представляють унікальні технічні виклики:

Помилки OCR, що впливають на виявлення PII:

  • «John» → «Iohn» або «l0hn» (подібні символи: 1/l/I, 0/O)
  • «123-45-6789» → «l23-4S-6789» (OCR-помилки)
  • «Dr. Smith» → «Dr5mith» (відсутній пробіл)
  • Дати: «01/15/1985» → «Ol/l5/l9B5"

Ці помилки знижують стандартну точність виявлення PII (регулярний вираз) на 23% для відсканованих документів.

Підхід до ланцюжка обробки

Крок 1: Покращення якості OCR

  • Попередня обробка зображення: видалення фону, збільшення контрасту
  • OCR з кількома двигунами (Tesseract + Google Vision API) → відбір найбільш впевненого виводу
  • Постобробка OCR: словникова корекція для медичного лексикону

Крок 2: Виявлення PII із толерантністю до помилок

  • Нечіткий пошук регулярних виразів: SSN-шаблон із tolerance на 1 помилку символу
  • Контекстне виявлення: «пацієнт:» поруч з рядком → виявляти як потенційне ім'я
  • NER-моделі, навчені на OCR-зашумлених медичних текстах

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.