GDPR и стари скенирани датотеки: OCR за лични податоци
Ажурирано за 2026
GDPR-ревизиите честопати го откриваат истиот скриен ризик: стари архиви со скенирани PDF-датотеки.
Правните друштва чуваат 20 години скенирани клиентски досиеја. Болниците го архивираат пациентскиот материјал со децении наназад. Државните тела чуваат скенирани записи. Банките имаат сликовити копии на кредитни предмети.
Овие архиви имаат една заедничка особина. Датотеките се растерски слики — скенирани PDF, TIFF или JPEG. Нема текстуален слој. Стандардните алатки за заштита на лични податоци не можат да ги читаат. За повеќето алатки за анонимизација, овие датотеки едноставно не постојат.
Често слушано верување: "Ова се сликовни датотеки — GDPR не важи."
Меѓутоа, член 17(1) на GDPR им дава на луѓето право на бришење. Образложение 26 вели дека анонимизацијата ги вади личните информации од опфатот. Ниту еден од нив не предвидува исклучок за сликовни формати. Правно друштво кое не може да исполни барање за бришење на 15-годишно клиентско досие има јаз во усогласеноста — не исклучок.
Видете го нашиот преглед на усогласеноста и безбедносните практики за тоа како го поддржуваме GDPR.
Како работи пајплајнот за откривање
Процесот се одвива во три фази.
Фаза 1 — OCR
OCR-моторот ја чита сликата и го извлекува текстот. Ја запишува позицијата на секој збор. Резултатот е машински читлив текст со координати. Точноста се намалува кај ракописот, избледеното мастило или старите шрифтови.
Фаза 2 — Откривање на ентитети со NLP
Препознавањето именувани ентитети (NER) го скенира OCR-текстот. Наоѓа имиња на лица, организации и локации. Совпаѓањето на шаблони додава ЕМБГ, телефонски броеви и броеви на сметки. Секој резултат добива оценка на доверба.
Фаза 3 — Анонимизација
Откриените ентитети се заменуваат во текстуалниот излез. Оригиналната слика не се менува. Промената на сликата бара посебни алатки за редактирање. Анонимизираниот текст ги поддржува барањата за бришење, одговорите на DSAR и записите за усогласеност.
Модерните OCR-мотори постигнуваат точност од 98–99% на ниво на знаци на чисти печатени страни. Ракопис или оштетени скени паѓаат на 85–92%. Точноста на ниво на ентитети е обично повисока отколку на ниво на знаци. Може да се препознае едно ime дури и кога неколку букви се погрешни.
Практичната поента: точноста на OCR влијае на тоа колку ентитети ќе пронајдете. Таа не го одредува дали методот работи. Дури и при 90% точност, се наоѓаат повеќето имиња и броеви. Потребни се нивоа на квалитет. Самиот метод е исправен.
Обработка на голема архива
Големите стари архиви следат работен тек во четири фази.
Фаза 1 — Попис: Наведете ги сите архиви со слики. Забележете го изворниот систем и временскиот распон. Ставете ги прво записите со висок ризик за бришење. Клиентски датотеки пред внатрешни.
Фаза 2 — Пакетна обработка: Извршете OCR и откривање лични податоци во пакети. Пет до десет илјади датотеки по пакет е вообичаена големина. Обработката се извршува преку ноќ. Резултатот е извештај за лични податоци и анонимизиран текстуален извод за секоја датотека.
Фаза 3 — Исполнување на барањата за бришење: Субјектот испраќа барање со своето ime и периодот. Пребарајте ги анонимизираните изводи за нивните токени. Пронајдете ги датотеките. Редактирајте ги. Евидентирајте ја акцијата.
Фаза 4 — Тековна усогласеност: Ставете ги новите скенирани датотеки преку истиот пајплајн пред да ги архивирате. Чувајте ги извештаите за лични податоци како доказ за Записи за активностите на обработка согласно член 30.
Студија на случај: Архива на правно друштво
Ревизијата на едно правно друштво откри 80.000 клиентски договори во формат на скениран PDF, скенирани во периодот 1998–2010 година. Стандардните алатки за лични податоци покажаа нула откривања. Сликовниот формат беше невидлив.
Петнаесет поранешни клиенти поднеле барања за бришење во претходните 12 месеци. Друштвото рекло: "Не можеме да потврдиме дека вашите записи се избришани." Тој одговор не ги исполнува барањата на член 17 од GDPR.
Она што го направи друштвото:
- Извршило OCR и откривање лични податоци на сите 80.000 датотеки во пакети по 5.000
- Обработката траела околу три недели
- Резултат: 80.000 анонимизирани текстуални изводи со извештаи по датотека
- Изградена е пребарлива индексна табела која ги поврзува ентитетите со ID-броевите на датотеките
По обработката:
- Наоѓање датотеки за еден субјект: просечно 4 минути
- Датотеки по барање: просечно 6–8
- Време за редакција по барање: 20–30 минути
Сите 15 неодговорени барања беа решени во рок од 30 дена.
Клучната поента: обврската за усогласеност постоела пред обработката. Друштвото едноставно немало алатки да ја исполни. Обработката базирана на OCR не создаде нова обврска. Ја направи исполнувањето на постојната обврска возможно.
Ограничувања на OCR и нивоа на квалитет
Ракописот има пониска точност на OCR. Поставете понизок праг на доверба пред обработка на ракописна содржина.
Слабиот квалитет на скенирање ги намалува оценките. Подобрувањето на контрастот и исправувањето на нагнатоста помагаат пред OCR да се изврши.
Необичните распореди — повеќеколонски страни, стари правни шрифтови — исто така можат да добијат пониска оценка.
Поставете нивоа на квалитет за работа со усогласеност:
- Над 95% точност на страна: автоматска обработка
- 80–95%: автоматска обработка, потоа рачен преглед на обележаните ентитети
- Под 80%: испраќање на рачен преглед
Пристапот со нивоа им дава на регулаторите јасен одговор за тоа како ја проценувате доверливоста. Повеќето автоматизирани алатки ги обработуваат датотеките со висока доверба. Рачниот ред ги обработува останатите. Пропусноста останува висока. Квалитетот на усогласеноста останува висок исто така.
Нашиот ЧПП ги опфаќа вообичаените прашања за обработката базирана на OCR и барањата за евиденциска трага.