anonym.legal

By · Last updated 2026-06-05

Назад на блоготGDPR & Усогласеност

GDPR и скенирани документи: OCR + лични податоци

Правото на бришење според GDPR се однесува на лични податоци 'без оглед на форматот'. Скенираните PDF-датотеки од хартиени архиви не се исклучок.

June 5, 20267 мин читање
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR и стари скенирани датотеки: OCR за лични податоци

Ажурирано за 2026

GDPR-ревизиите честопати го откриваат истиот скриен ризик: стари архиви со скенирани PDF-датотеки.

Правните друштва чуваат 20 години скенирани клиентски досиеја. Болниците го архивираат пациентскиот материјал со децении наназад. Државните тела чуваат скенирани записи. Банките имаат сликовити копии на кредитни предмети.

Овие архиви имаат една заедничка особина. Датотеките се растерски слики — скенирани PDF, TIFF или JPEG. Нема текстуален слој. Стандардните алатки за заштита на лични податоци не можат да ги читаат. За повеќето алатки за анонимизација, овие датотеки едноставно не постојат.

Често слушано верување: "Ова се сликовни датотеки — GDPR не важи."

Меѓутоа, член 17(1) на GDPR им дава на луѓето право на бришење. Образложение 26 вели дека анонимизацијата ги вади личните информации од опфатот. Ниту еден од нив не предвидува исклучок за сликовни формати. Правно друштво кое не може да исполни барање за бришење на 15-годишно клиентско досие има јаз во усогласеноста — не исклучок.

Видете го нашиот преглед на усогласеноста и безбедносните практики за тоа како го поддржуваме GDPR.

Како работи пајплајнот за откривање

Процесот се одвива во три фази.

Фаза 1 — OCR

OCR-моторот ја чита сликата и го извлекува текстот. Ја запишува позицијата на секој збор. Резултатот е машински читлив текст со координати. Точноста се намалува кај ракописот, избледеното мастило или старите шрифтови.

Фаза 2 — Откривање на ентитети со NLP

Препознавањето именувани ентитети (NER) го скенира OCR-текстот. Наоѓа имиња на лица, организации и локации. Совпаѓањето на шаблони додава ЕМБГ, телефонски броеви и броеви на сметки. Секој резултат добива оценка на доверба.

Фаза 3 — Анонимизација

Откриените ентитети се заменуваат во текстуалниот излез. Оригиналната слика не се менува. Промената на сликата бара посебни алатки за редактирање. Анонимизираниот текст ги поддржува барањата за бришење, одговорите на DSAR и записите за усогласеност.

Модерните OCR-мотори постигнуваат точност од 98–99% на ниво на знаци на чисти печатени страни. Ракопис или оштетени скени паѓаат на 85–92%. Точноста на ниво на ентитети е обично повисока отколку на ниво на знаци. Може да се препознае едно ime дури и кога неколку букви се погрешни.

Практичната поента: точноста на OCR влијае на тоа колку ентитети ќе пронајдете. Таа не го одредува дали методот работи. Дури и при 90% точност, се наоѓаат повеќето имиња и броеви. Потребни се нивоа на квалитет. Самиот метод е исправен.

Обработка на голема архива

Големите стари архиви следат работен тек во четири фази.

Фаза 1 — Попис: Наведете ги сите архиви со слики. Забележете го изворниот систем и временскиот распон. Ставете ги прво записите со висок ризик за бришење. Клиентски датотеки пред внатрешни.

Фаза 2 — Пакетна обработка: Извршете OCR и откривање лични податоци во пакети. Пет до десет илјади датотеки по пакет е вообичаена големина. Обработката се извршува преку ноќ. Резултатот е извештај за лични податоци и анонимизиран текстуален извод за секоја датотека.

Фаза 3 — Исполнување на барањата за бришење: Субјектот испраќа барање со своето ime и периодот. Пребарајте ги анонимизираните изводи за нивните токени. Пронајдете ги датотеките. Редактирајте ги. Евидентирајте ја акцијата.

Фаза 4 — Тековна усогласеност: Ставете ги новите скенирани датотеки преку истиот пајплајн пред да ги архивирате. Чувајте ги извештаите за лични податоци како доказ за Записи за активностите на обработка согласно член 30.

Студија на случај: Архива на правно друштво

Ревизијата на едно правно друштво откри 80.000 клиентски договори во формат на скениран PDF, скенирани во периодот 1998–2010 година. Стандардните алатки за лични податоци покажаа нула откривања. Сликовниот формат беше невидлив.

Петнаесет поранешни клиенти поднеле барања за бришење во претходните 12 месеци. Друштвото рекло: "Не можеме да потврдиме дека вашите записи се избришани." Тој одговор не ги исполнува барањата на член 17 од GDPR.

Она што го направи друштвото:

  • Извршило OCR и откривање лични податоци на сите 80.000 датотеки во пакети по 5.000
  • Обработката траела околу три недели
  • Резултат: 80.000 анонимизирани текстуални изводи со извештаи по датотека
  • Изградена е пребарлива индексна табела која ги поврзува ентитетите со ID-броевите на датотеките

По обработката:

  • Наоѓање датотеки за еден субјект: просечно 4 минути
  • Датотеки по барање: просечно 6–8
  • Време за редакција по барање: 20–30 минути

Сите 15 неодговорени барања беа решени во рок од 30 дена.

Клучната поента: обврската за усогласеност постоела пред обработката. Друштвото едноставно немало алатки да ја исполни. Обработката базирана на OCR не создаде нова обврска. Ја направи исполнувањето на постојната обврска возможно.

Ограничувања на OCR и нивоа на квалитет

Ракописот има пониска точност на OCR. Поставете понизок праг на доверба пред обработка на ракописна содржина.

Слабиот квалитет на скенирање ги намалува оценките. Подобрувањето на контрастот и исправувањето на нагнатоста помагаат пред OCR да се изврши.

Необичните распореди — повеќеколонски страни, стари правни шрифтови — исто така можат да добијат пониска оценка.

Поставете нивоа на квалитет за работа со усогласеност:

  • Над 95% точност на страна: автоматска обработка
  • 80–95%: автоматска обработка, потоа рачен преглед на обележаните ентитети
  • Под 80%: испраќање на рачен преглед

Пристапот со нивоа им дава на регулаторите јасен одговор за тоа како ја проценувате доверливоста. Повеќето автоматизирани алатки ги обработуваат датотеките со висока доверба. Рачниот ред ги обработува останатите. Пропусноста останува висока. Квалитетот на усогласеноста останува висок исто така.

Нашиот ЧПП ги опфаќа вообичаените прашања за обработката базирана на OCR и барањата за евиденциска трага.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.