Проблема унаслідованих документів
Багато організацій мають архіви скованих документів:
- Сканування 1990х років
- Низька якість (100 DPI)
- Нечитаемо (кроокрахмалене, затерте)
- Відсутня структура (чорно-біле, no text layer)
Видатихня скованих документів
Етап 1: Предварительна обработка
Сканування → Вилучення шуму → Выпрямління сторінки → Покращення контрасту
Етап 2: OCR
Текст → tesseract v5 → Text Output
Етап 3: Виявлення PII
OCR текст → Модель NER → Позиції PII
Етап 4: Анонімізація
Позиції → Визначення яскравості → Масляне чорне місце на оригіналі
Виклики OCR для PII
- Точність: OCR 85–95% точності, але для PII мають бути 99%+
- Kontekst: OCR не розуміє контекст (коди числа або дати?)
- Розпізнання: Важко розпізнати рукописний текст
- Мови: Не всі мови добре підтримуються
Контрольний список
- ☐ Оцінити обсяг архіву
- ☐ Вибрати OCR рішення
- ☐ Тестування на репрезентативних зразків
- ☐ Впровадження конвеєра
- ☐ Валідація якості анонімізації