RODO a zeskanowane pliki archiwalne: OCR do wykrywania danych osobowych

Zaktualizowano w 2026 r.

Audyty RODO regularnie ujawniają to samo ukryte ryzyko: stare archiwa obrazowych plików PDF.

Kancelarie prawne przechowują 20 lat zeskanowanych akt klientów. Szpitale trzymają dziesięciolecia formularzy pacjentów. Organy rządowe przechowują zeskanowane dokumenty. Banki dysponują zdigitalizowanymi aktami kredytowymi.

Te archiwa mają jedną wspólną cechę. Pliki są rastrowe — zeskanowane pliki PDF, TIFF lub JPEG. Nie ma w nich warstwy tekstowej. Standardowe narzędzia do wykrywania danych osobowych nie potrafią ich odczytać. Dla większości narzędzi do anonimizacji te pliki po prostu nie istnieją.

Pokutuje przekonanie: „To są pliki graficzne — RODO nie ma zastosowania.”

Art. 17 ust. 1 RODO przyznaje osobom prawo do usunięcia danych. Motyw 26 stanowi, że anonimizacja wyłącza dane osobowe z zakresu stosowania rozporządzenia. Żaden z tych przepisów nie przewiduje wyjątku dla formatów graficznych. Kancelaria prawna, która nie może zrealizować wniosku o usunięcie dotyczącego 15-letnich akt klienta, ma lukę w zakresie zgodności. Nie posiada natomiast zwolnienia.

Zapoznaj się z naszym przeglądem zgodności oraz praktykami bezpieczeństwa i sprawdź, jak wspieramy RODO.

Jak działa potok wykrywania

Proces przebiega w trzech etapach.

Etap 1 — OCR

Silnik OCR odczytuje obraz i wyodrębnia tekst. Rejestruje pozycję każdego słowa. Dane wyjściowe to tekst czytelny maszynowo ze współrzędnymi. Dokładność spada w przypadku pisma odręcznego, wyblakłego atramentu lub starych krojów pisma.

Etap 2 — Wykrywanie encji NLP

Rozpoznawanie nazwanych encji (NER) skanuje tekst OCR. Wyszukuje imiona i nazwiska osób, organizacje i lokalizacje. Dopasowanie wzorców dodaje numery PESEL, numery telefonów i numery kont. Każde trafienie otrzymuje wynik ufności.

Etap 3 — Anonimizacja

Wykryte encje są zastępowane w tekście wyjściowym. Oryginalny obraz pozostaje niezmieniony. Zmiana obrazu wymaga oddzielnych narzędzi do redakcji. Zanonimizowany tekst obsługuje wnioski o usunięcie danych, odpowiedzi na wnioski o dostęp (DSAR) oraz dokumentację zgodności.

Nowoczesne silniki OCR osiągają dokładność 98–99% na poziomie znaków dla czystych stron drukowanych. W przypadku pisma odręcznego lub zniszczonych skanów wynik spada do 85–92%. Dokładność na poziomie encji jest zazwyczaj wyższa niż na poziomie znaków. Imię i nazwisko można zidentyfikować nawet wtedy, gdy kilka liter jest błędnych.

Praktyczny wniosek: dokładność OCR wpływa na liczbę wychwyconych encji. Nie przesądza jednak o tym, czy metoda działa. Nawet przy 90-procentowej dokładności znajdziesz większość imion i nazwisk oraz numerów. Nadal potrzebne są poziomy jakości. Sama metoda jest zasadna.

Przetwarzanie dużego archiwum

Duże archiwa archiwalne obsługuje się według czterofazowego przepływu pracy.

Faza 1 — Inwentaryzacja: Wypisz wszystkie archiwa oparte na obrazach. Zanotuj system źródłowy i zakres dat. Na początku umieść rekordy o najwyższym ryzyku związanym z wnioskami o usunięcie. Pliki dotyczące klientów mają pierwszeństwo przed wewnętrznymi.

Faza 2 — Przetwarzanie wsadowe: Uruchamiaj OCR i wykrywanie danych osobowych partiami. Typowa wielkość partii to od pięciu do dziesięciu tysięcy plików. Przetwarzanie odbywa się nocą. Dane wyjściowe to raport o danych osobowych oraz zanonimizowany wyciąg tekstowy dla każdego pliku.

Faza 3 — Realizacja wniosków o usunięcie: Osoba, której dane dotyczą, składa wniosek, podając swoje imię i nazwisko oraz okres. Przeszukaj zanonimizowane wyciągi pod kątem jej tokenów. Znajdź pliki. Dokonaj redakcji. Zaloguj działanie.

Faza 4 — Bieżąca zgodność: Nowe zeskanowane pliki przepuszczaj przez ten sam potok przed ich archiwizacją. Przechowuj raporty o danych osobowych jako dowód prowadzenia Rejestru Czynności Przetwarzania (RCP) na podstawie art. 30.

Studium przypadku: archiwum kancelarii prawnej

Audyt kancelarii prawnej ujawnił 80 000 obrazowych plików PDF z umowami klientów, zeskanowanymi w latach 1998–2010. Standardowe narzędzia do wykrywania danych osobowych wykazały zero trafień. Format graficzny był dla nich niewidoczny.

Piętnastu byłych klientów złożyło wnioski o usunięcie danych w ciągu poprzednich 12 miesięcy. Kancelaria odpowiedziała: „Nie możemy potwierdzić usunięcia Pani/Pana danych.” Taka odpowiedź nie spełnia wymogów art. 17 RODO.

Co zrobiła kancelaria:

Uruchomiła OCR i wykrywanie danych osobowych dla wszystkich 80 000 plików w partiach po 5 000
Przetwarzanie zajęło około trzech tygodni
Wynik: 80 000 zanonimizowanych wyciągów tekstowych z raportami dla każdego pliku
Zbudowała przeszukiwalny indeks łączący encje z identyfikatorami plików

Po przetwarzaniu:

Czas znalezienia plików dla jednej osoby: średnio 4 minuty
Liczba plików na wniosek: średnio 6–8
Czas redakcji na wniosek: 20–30 minut

Wszystkie 15 zaległych wniosków zostało rozpatrzonych w ciągu 30 dni.

Kluczowy wniosek: obowiązek compliance istniał jeszcze przed przetwarzaniem. Kancelarii brakowało jedynie narzędzi do jego wypełnienia. Przetwarzanie oparte na OCR nie stworzyło nowego obowiązku. Umożliwiło jedynie realizację istniejącego.

Ograniczenia OCR i poziomy jakości

Pismo odręczne charakteryzuje się niższą dokładnością OCR. Ustaw niższy próg ufności przed przetwarzaniem treści odręcznych.

Słaba jakość skanu obniża wyniki. Przed uruchomieniem OCR pomocne jest zwiększenie kontrastu i prostowanie obrazu.

Niestandardowe układy — strony wielokolumnowe, stare kroje prawnicze — mogą też uzyskiwać niższe wyniki.

Ustal poziomy jakości dla prac związanych z compliance:

Powyżej 95% dokładności strony: przetwarzanie automatyczne
80–95%: przetwarzanie automatyczne, a następnie weryfikacja przez człowieka dla oznaczonych encji
Poniżej 80%: przekazanie do weryfikacji ręcznej

Podejście warstwowe daje regulatorom jasną odpowiedź na pytanie, w jaki sposób oceniłeś wiarygodność. Większość plików o wysokim poziomie ufności obsługują narzędzia automatyczne. Reszta trafia do kolejki ręcznej. Przepustowość pozostaje wysoka. Jakość compliance również.

Nasz FAQ odpowiada na typowe pytania dotyczące przetwarzania opartego na OCR i wymogów ścieżki audytu.

Źródła

Pokrewne artykuły

GDPR i zgodność

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

Rozpocznij bezpłatny okres próbny Zobacz funkcje

RODO a zeskanowane dokumenty archiwalne: OCR i dane osobowe

RODO a zeskanowane pliki archiwalne: OCR do wykrywania danych osobowych

Jak działa potok wykrywania

Przetwarzanie dużego archiwum

Studium przypadku: archiwum kancelarii prawnej

Ograniczenia OCR i poziomy jakości

Źródła

Pokrewne artykuły

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Gotowy, aby chronić swoje dane?

RODO a zeskanowane dokumenty archiwalne: OCR i dane osobowe

RODO a zeskanowane pliki archiwalne: OCR do wykrywania danych osobowych

Jak działa potok wykrywania

Przetwarzanie dużego archiwum

Studium przypadku: archiwum kancelarii prawnej

Ograniczenia OCR i poziomy jakości

Źródła

Pokrewne artykuły

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Gotowy, aby chronić swoje dane?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow