anonym.legal
Назад до блогуGDPR та відповідність

Унаслідувані скановані документи: GDPR та OCR...

Старі скановані документи часто містять PII. Ось як їх анонімізувати.

April 21, 20267 хв читання
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Проблема унаслідованих документів

Багато організацій мають архіви скованих документів:

  • Сканування 1990х років
  • Низька якість (100 DPI)
  • Нечитаемо (кроокрахмалене, затерте)
  • Відсутня структура (чорно-біле, no text layer)

Видатихня скованих документів

Етап 1: Предварительна обработка

Сканування → Вилучення шуму → Выпрямління сторінки → Покращення контрасту

Етап 2: OCR

Текст → tesseract v5 → Text Output

Етап 3: Виявлення PII

OCR текст → Модель NER → Позиції PII

Етап 4: Анонімізація

Позиції → Визначення яскравості → Масляне чорне місце на оригіналі

Виклики OCR для PII

  • Точність: OCR 85–95% точності, але для PII мають бути 99%+
  • Kontekst: OCR не розуміє контекст (коди числа або дати?)
  • Розпізнання: Важко розпізнати рукописний текст
  • Мови: Не всі мови добре підтримуються

Контрольний список

  1. ☐ Оцінити обсяг архіву
  2. ☐ Вибрати OCR рішення
  3. ☐ Тестування на репрезентативних зразків
  4. ☐ Впровадження конвеєра
  5. ☐ Валідація якості анонімізації

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.