RODO a zeskanowane pliki archiwalne: OCR do wykrywania danych osobowych
Zaktualizowano w 2026 r.
Audyty RODO regularnie ujawniają to samo ukryte ryzyko: stare archiwa obrazowych plików PDF.
Kancelarie prawne przechowują 20 lat zeskanowanych akt klientów. Szpitale trzymają dziesięciolecia formularzy pacjentów. Organy rządowe przechowują zeskanowane dokumenty. Banki dysponują zdigitalizowanymi aktami kredytowymi.
Te archiwa mają jedną wspólną cechę. Pliki są rastrowe — zeskanowane pliki PDF, TIFF lub JPEG. Nie ma w nich warstwy tekstowej. Standardowe narzędzia do wykrywania danych osobowych nie potrafią ich odczytać. Dla większości narzędzi do anonimizacji te pliki po prostu nie istnieją.
Pokutuje przekonanie: „To są pliki graficzne — RODO nie ma zastosowania.”
Art. 17 ust. 1 RODO przyznaje osobom prawo do usunięcia danych. Motyw 26 stanowi, że anonimizacja wyłącza dane osobowe z zakresu stosowania rozporządzenia. Żaden z tych przepisów nie przewiduje wyjątku dla formatów graficznych. Kancelaria prawna, która nie może zrealizować wniosku o usunięcie dotyczącego 15-letnich akt klienta, ma lukę w zakresie zgodności. Nie posiada natomiast zwolnienia.
Zapoznaj się z naszym przeglądem zgodności oraz praktykami bezpieczeństwa i sprawdź, jak wspieramy RODO.
Jak działa potok wykrywania
Proces przebiega w trzech etapach.
Etap 1 — OCR
Silnik OCR odczytuje obraz i wyodrębnia tekst. Rejestruje pozycję każdego słowa. Dane wyjściowe to tekst czytelny maszynowo ze współrzędnymi. Dokładność spada w przypadku pisma odręcznego, wyblakłego atramentu lub starych krojów pisma.
Etap 2 — Wykrywanie encji NLP
Rozpoznawanie nazwanych encji (NER) skanuje tekst OCR. Wyszukuje imiona i nazwiska osób, organizacje i lokalizacje. Dopasowanie wzorców dodaje numery PESEL, numery telefonów i numery kont. Każde trafienie otrzymuje wynik ufności.
Etap 3 — Anonimizacja
Wykryte encje są zastępowane w tekście wyjściowym. Oryginalny obraz pozostaje niezmieniony. Zmiana obrazu wymaga oddzielnych narzędzi do redakcji. Zanonimizowany tekst obsługuje wnioski o usunięcie danych, odpowiedzi na wnioski o dostęp (DSAR) oraz dokumentację zgodności.
Nowoczesne silniki OCR osiągają dokładność 98–99% na poziomie znaków dla czystych stron drukowanych. W przypadku pisma odręcznego lub zniszczonych skanów wynik spada do 85–92%. Dokładność na poziomie encji jest zazwyczaj wyższa niż na poziomie znaków. Imię i nazwisko można zidentyfikować nawet wtedy, gdy kilka liter jest błędnych.
Praktyczny wniosek: dokładność OCR wpływa na liczbę wychwyconych encji. Nie przesądza jednak o tym, czy metoda działa. Nawet przy 90-procentowej dokładności znajdziesz większość imion i nazwisk oraz numerów. Nadal potrzebne są poziomy jakości. Sama metoda jest zasadna.
Przetwarzanie dużego archiwum
Duże archiwa archiwalne obsługuje się według czterofazowego przepływu pracy.
Faza 1 — Inwentaryzacja: Wypisz wszystkie archiwa oparte na obrazach. Zanotuj system źródłowy i zakres dat. Na początku umieść rekordy o najwyższym ryzyku związanym z wnioskami o usunięcie. Pliki dotyczące klientów mają pierwszeństwo przed wewnętrznymi.
Faza 2 — Przetwarzanie wsadowe: Uruchamiaj OCR i wykrywanie danych osobowych partiami. Typowa wielkość partii to od pięciu do dziesięciu tysięcy plików. Przetwarzanie odbywa się nocą. Dane wyjściowe to raport o danych osobowych oraz zanonimizowany wyciąg tekstowy dla każdego pliku.
Faza 3 — Realizacja wniosków o usunięcie: Osoba, której dane dotyczą, składa wniosek, podając swoje imię i nazwisko oraz okres. Przeszukaj zanonimizowane wyciągi pod kątem jej tokenów. Znajdź pliki. Dokonaj redakcji. Zaloguj działanie.
Faza 4 — Bieżąca zgodność: Nowe zeskanowane pliki przepuszczaj przez ten sam potok przed ich archiwizacją. Przechowuj raporty o danych osobowych jako dowód prowadzenia Rejestru Czynności Przetwarzania (RCP) na podstawie art. 30.
Studium przypadku: archiwum kancelarii prawnej
Audyt kancelarii prawnej ujawnił 80 000 obrazowych plików PDF z umowami klientów, zeskanowanymi w latach 1998–2010. Standardowe narzędzia do wykrywania danych osobowych wykazały zero trafień. Format graficzny był dla nich niewidoczny.
Piętnastu byłych klientów złożyło wnioski o usunięcie danych w ciągu poprzednich 12 miesięcy. Kancelaria odpowiedziała: „Nie możemy potwierdzić usunięcia Pani/Pana danych.” Taka odpowiedź nie spełnia wymogów art. 17 RODO.
Co zrobiła kancelaria:
- Uruchomiła OCR i wykrywanie danych osobowych dla wszystkich 80 000 plików w partiach po 5 000
- Przetwarzanie zajęło około trzech tygodni
- Wynik: 80 000 zanonimizowanych wyciągów tekstowych z raportami dla każdego pliku
- Zbudowała przeszukiwalny indeks łączący encje z identyfikatorami plików
Po przetwarzaniu:
- Czas znalezienia plików dla jednej osoby: średnio 4 minuty
- Liczba plików na wniosek: średnio 6–8
- Czas redakcji na wniosek: 20–30 minut
Wszystkie 15 zaległych wniosków zostało rozpatrzonych w ciągu 30 dni.
Kluczowy wniosek: obowiązek compliance istniał jeszcze przed przetwarzaniem. Kancelarii brakowało jedynie narzędzi do jego wypełnienia. Przetwarzanie oparte na OCR nie stworzyło nowego obowiązku. Umożliwiło jedynie realizację istniejącego.
Ograniczenia OCR i poziomy jakości
Pismo odręczne charakteryzuje się niższą dokładnością OCR. Ustaw niższy próg ufności przed przetwarzaniem treści odręcznych.
Słaba jakość skanu obniża wyniki. Przed uruchomieniem OCR pomocne jest zwiększenie kontrastu i prostowanie obrazu.
Niestandardowe układy — strony wielokolumnowe, stare kroje prawnicze — mogą też uzyskiwać niższe wyniki.
Ustal poziomy jakości dla prac związanych z compliance:
- Powyżej 95% dokładności strony: przetwarzanie automatyczne
- 80–95%: przetwarzanie automatyczne, a następnie weryfikacja przez człowieka dla oznaczonych encji
- Poniżej 80%: przekazanie do weryfikacji ręcznej
Podejście warstwowe daje regulatorom jasną odpowiedź na pytanie, w jaki sposób oceniłeś wiarygodność. Większość plików o wysokim poziomie ufności obsługują narzędzia automatyczne. Reszta trafia do kolejki ręcznej. Przepustowość pozostaje wysoka. Jakość compliance również.
Nasz FAQ odpowiada na typowe pytania dotyczące przetwarzania opartego na OCR i wymogów ścieżki audytu.