By · Last updated 2026-06-05

Powrót do blogaGDPR i zgodność

RODO a zeskanowane dokumenty archiwalne: OCR i dane osobowe

Prawo do usunięcia danych wynikające z RODO dotyczy danych osobowych „niezależnie od formatu”. Archiwa obrazowych plików PDF ze skanów papierowych nie są z niego wyłączone.

June 5, 20267 min czytania
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

RODO a zeskanowane pliki archiwalne: OCR do wykrywania danych osobowych

Zaktualizowano w 2026 r.

Audyty RODO regularnie ujawniają to samo ukryte ryzyko: stare archiwa obrazowych plików PDF.

Kancelarie prawne przechowują 20 lat zeskanowanych akt klientów. Szpitale trzymają dziesięciolecia formularzy pacjentów. Organy rządowe przechowują zeskanowane dokumenty. Banki dysponują zdigitalizowanymi aktami kredytowymi.

Te archiwa mają jedną wspólną cechę. Pliki są rastrowe — zeskanowane pliki PDF, TIFF lub JPEG. Nie ma w nich warstwy tekstowej. Standardowe narzędzia do wykrywania danych osobowych nie potrafią ich odczytać. Dla większości narzędzi do anonimizacji te pliki po prostu nie istnieją.

Pokutuje przekonanie: „To są pliki graficzne — RODO nie ma zastosowania.”

Art. 17 ust. 1 RODO przyznaje osobom prawo do usunięcia danych. Motyw 26 stanowi, że anonimizacja wyłącza dane osobowe z zakresu stosowania rozporządzenia. Żaden z tych przepisów nie przewiduje wyjątku dla formatów graficznych. Kancelaria prawna, która nie może zrealizować wniosku o usunięcie dotyczącego 15-letnich akt klienta, ma lukę w zakresie zgodności. Nie posiada natomiast zwolnienia.

Zapoznaj się z naszym przeglądem zgodności oraz praktykami bezpieczeństwa i sprawdź, jak wspieramy RODO.

Jak działa potok wykrywania

Proces przebiega w trzech etapach.

Etap 1 — OCR

Silnik OCR odczytuje obraz i wyodrębnia tekst. Rejestruje pozycję każdego słowa. Dane wyjściowe to tekst czytelny maszynowo ze współrzędnymi. Dokładność spada w przypadku pisma odręcznego, wyblakłego atramentu lub starych krojów pisma.

Etap 2 — Wykrywanie encji NLP

Rozpoznawanie nazwanych encji (NER) skanuje tekst OCR. Wyszukuje imiona i nazwiska osób, organizacje i lokalizacje. Dopasowanie wzorców dodaje numery PESEL, numery telefonów i numery kont. Każde trafienie otrzymuje wynik ufności.

Etap 3 — Anonimizacja

Wykryte encje są zastępowane w tekście wyjściowym. Oryginalny obraz pozostaje niezmieniony. Zmiana obrazu wymaga oddzielnych narzędzi do redakcji. Zanonimizowany tekst obsługuje wnioski o usunięcie danych, odpowiedzi na wnioski o dostęp (DSAR) oraz dokumentację zgodności.

Nowoczesne silniki OCR osiągają dokładność 98–99% na poziomie znaków dla czystych stron drukowanych. W przypadku pisma odręcznego lub zniszczonych skanów wynik spada do 85–92%. Dokładność na poziomie encji jest zazwyczaj wyższa niż na poziomie znaków. Imię i nazwisko można zidentyfikować nawet wtedy, gdy kilka liter jest błędnych.

Praktyczny wniosek: dokładność OCR wpływa na liczbę wychwyconych encji. Nie przesądza jednak o tym, czy metoda działa. Nawet przy 90-procentowej dokładności znajdziesz większość imion i nazwisk oraz numerów. Nadal potrzebne są poziomy jakości. Sama metoda jest zasadna.

Przetwarzanie dużego archiwum

Duże archiwa archiwalne obsługuje się według czterofazowego przepływu pracy.

Faza 1 — Inwentaryzacja: Wypisz wszystkie archiwa oparte na obrazach. Zanotuj system źródłowy i zakres dat. Na początku umieść rekordy o najwyższym ryzyku związanym z wnioskami o usunięcie. Pliki dotyczące klientów mają pierwszeństwo przed wewnętrznymi.

Faza 2 — Przetwarzanie wsadowe: Uruchamiaj OCR i wykrywanie danych osobowych partiami. Typowa wielkość partii to od pięciu do dziesięciu tysięcy plików. Przetwarzanie odbywa się nocą. Dane wyjściowe to raport o danych osobowych oraz zanonimizowany wyciąg tekstowy dla każdego pliku.

Faza 3 — Realizacja wniosków o usunięcie: Osoba, której dane dotyczą, składa wniosek, podając swoje imię i nazwisko oraz okres. Przeszukaj zanonimizowane wyciągi pod kątem jej tokenów. Znajdź pliki. Dokonaj redakcji. Zaloguj działanie.

Faza 4 — Bieżąca zgodność: Nowe zeskanowane pliki przepuszczaj przez ten sam potok przed ich archiwizacją. Przechowuj raporty o danych osobowych jako dowód prowadzenia Rejestru Czynności Przetwarzania (RCP) na podstawie art. 30.

Studium przypadku: archiwum kancelarii prawnej

Audyt kancelarii prawnej ujawnił 80 000 obrazowych plików PDF z umowami klientów, zeskanowanymi w latach 1998–2010. Standardowe narzędzia do wykrywania danych osobowych wykazały zero trafień. Format graficzny był dla nich niewidoczny.

Piętnastu byłych klientów złożyło wnioski o usunięcie danych w ciągu poprzednich 12 miesięcy. Kancelaria odpowiedziała: „Nie możemy potwierdzić usunięcia Pani/Pana danych.” Taka odpowiedź nie spełnia wymogów art. 17 RODO.

Co zrobiła kancelaria:

  • Uruchomiła OCR i wykrywanie danych osobowych dla wszystkich 80 000 plików w partiach po 5 000
  • Przetwarzanie zajęło około trzech tygodni
  • Wynik: 80 000 zanonimizowanych wyciągów tekstowych z raportami dla każdego pliku
  • Zbudowała przeszukiwalny indeks łączący encje z identyfikatorami plików

Po przetwarzaniu:

  • Czas znalezienia plików dla jednej osoby: średnio 4 minuty
  • Liczba plików na wniosek: średnio 6–8
  • Czas redakcji na wniosek: 20–30 minut

Wszystkie 15 zaległych wniosków zostało rozpatrzonych w ciągu 30 dni.

Kluczowy wniosek: obowiązek compliance istniał jeszcze przed przetwarzaniem. Kancelarii brakowało jedynie narzędzi do jego wypełnienia. Przetwarzanie oparte na OCR nie stworzyło nowego obowiązku. Umożliwiło jedynie realizację istniejącego.

Ograniczenia OCR i poziomy jakości

Pismo odręczne charakteryzuje się niższą dokładnością OCR. Ustaw niższy próg ufności przed przetwarzaniem treści odręcznych.

Słaba jakość skanu obniża wyniki. Przed uruchomieniem OCR pomocne jest zwiększenie kontrastu i prostowanie obrazu.

Niestandardowe układy — strony wielokolumnowe, stare kroje prawnicze — mogą też uzyskiwać niższe wyniki.

Ustal poziomy jakości dla prac związanych z compliance:

  • Powyżej 95% dokładności strony: przetwarzanie automatyczne
  • 80–95%: przetwarzanie automatyczne, a następnie weryfikacja przez człowieka dla oznaczonych encji
  • Poniżej 80%: przekazanie do weryfikacji ręcznej

Podejście warstwowe daje regulatorom jasną odpowiedź na pytanie, w jaki sposób oceniłeś wiarygodność. Większość plików o wysokim poziomie ufności obsługują narzędzia automatyczne. Reszta trafia do kolejki ręcznej. Przepustowość pozostaje wysoka. Jakość compliance również.

Nasz FAQ odpowiada na typowe pytania dotyczące przetwarzania opartego na OCR i wymogów ścieżki audytu.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.