Problem wielu formatów w zgodności z RODO
Zaktualizowano w 2026 r.
Zapytaj pracownika ds. zgodności, które formaty anonimizuje na potrzeby odpowiedzi DSAR. Lista jest zawsze taka sama: umowy Word, faktury PDF, dane klientów Excel, eksporty CSV i logi JSON.
Następnie zapytaj, jakich narzędzi używa. Odpowiedź to zazwyczaj trzy do pięciu. Każde narzędzie ma inny zakres wykrywanych encji. Każde ma różne ustawienia. Każde generuje inny log audytu.
To właśnie fragmentacja formatów. Tworzy realne luki w zgodności.
Dlaczego fragmentacja występuje
Żadne pojedyncze narzędzie nie obsłużyło każdego formatu produkcyjnego na tym samym poziomie jakości. Dla każdego formatu powstały specjalistyczne narzędzia. Jedno do plików PDF. Jedno do arkuszy kalkulacyjnych. Makro do CSV. Każde ma własną listę encji. żadne nie współdzieli ścieżki audytu.
Efekt jest przewidywalny. Odpowiedź DSAR obejmuje wiele typów plików. Przetwarza je wiele narzędzi. Każde stosuje inne standardy. Encja X jest wychwycona w pliku PDF, ale pominięta w pliku Excel. Audyty organów nadzorczych ujawniają tę niespojność.
Techniczne wyzwania specyficzne dla formatów
Każdy format tworzy własne problemy z wykrywaniem.
Pliki PDF występują w dwóch typach: natywny tekst i skany oparte na obrazach. Zeskanowane pliki PDF wymagają najpierw OCR. OCR wprowadza błędy. Natywne pliki PDF często przechowują każde słowo jako osobny obiekt tekstowy. Niszczy to wykrywanie encji na granicach słów. Układy wielokolumnowe wymagają rekonstrukcji kolejności czytania przed rozpoczęciem analizy.
Word (DOCX)
Pliki DOCX przechowują tekst w formacie XML. Ale także w nagłówkach, stopkach, komentarzach, śledzonych zmianach i polach tekstowych. Adres w nagłówku strony to dane osobowe. Większość narzędzi go pomija. Śledzone zmiany mogą zawierać usunięte dane osobowe. Ten tekst jest niewidoczny w wyrenderowan ym widoku, ale obecny w pliku.
Excel (XLSX)
Excel przechowuje dane osobowe w dowolnej komórce spośród setek kolumn i tysięcy wierszy. Nagłówki kolumn takie jak „PESEL” lub „Email” dają kontekst, który modele NER przegapiają w surowym tekście. Daty i numery identyfikacyjne są często przechowywane jako liczby. Pola tekstowe, takie jak „uwagi kierownika”, zawierają nieustrukturyzowane dane osobowe. Narzędzia oparte na kolumnach pomijają te pola.
CSV
CSV nie ma struktury Excela. Pola tekstowe w kolumnach „uwagi” mieszają dane osobowe z inną treścią. Problemy z kodowaniem — UTF-8 versus Latin-1 — powodują błędy przy znakach spoza ASCII w europejskich imionach i adresach.
JSON
Zagnieżdżony JSON ukrywa dane osobowe głęboko: user.address.street.line1. Tablice wymagają iteracji. Ta sama nazwa pola może zawierać różne typy danych w różnych obiektach. Dobre wykrywanie wymaga jednocześnie świadomości schematu i analizy treści.
Niespojność to ryzyko prawne
Oto konkretny scenariusz DSAR w ramach RODO.
Osoba, której dane dotyczą, żąda wszystkich danych osobowych przechowywanych na jej temat. Zespół ds. zgodności znajduje następujące pliki:
- 3 dokumenty Word (umowy, korespondencja)
- 2 dokumenty PDF (faktury, transkrypcje wsparcia)
- 1 arkusz kalkulacyjny Excel (dane konta klienta)
- 1 eksport CSV (logi dostępu do systemu)
Używają Narzędzia A do plików PDF. Narzędzia B do Worda. Makra do XLSX. Ręcznego przeglądu do CSV. Każde narzędzie ma inny zakres encji.
Osoba, której dane dotyczą, otrzymuje zanonimizowany pakiet. Kolumna „uwagi kierownika” w Excelu nie była przetwarzana. Adres w nagłówku Worda został pominięty. Oba zawierają dane osobowe, które osoba, której dane dotyczą, zażądała zanonimizować.
Na podstawie art. 15 RODO (prawo dostępu) lub art. 17 (prawo do usunięcia) jest to niekompletna odpowiedź DSAR. Jeśli osoba, której dane dotyczą, lub regulator odkryje lukę, niespojne narzędzie jest udokumentowanym czynnikiem przyczyniającym się.
Argument za spójnym standardem
Silna zgodność z DSAR nie tylko wymienia typy danych osobowych do anonimizacji. Wymaga tego samego standardu we wszystkich formatach w zestawie odpowiedzi.
Oznacza to:
- Te same typy encji sprawdzane w Wordzie, PDF, Excelu, CSV i JSON
- Te same progi ufności stosowane do wszystkich plików
- Te same tokeny zastępcze. Jeśli „Jan Kowalski” pojawia się w trzech dokumentach, jeden token zastępuje imię i nazwisko we wszystkich trzech
- Jedna ścieżka audytu obejmująca wszystkie formaty
Rozwiązanie jednoplatformowe umożliwia to poprzez presety. Jeden preset „DSAR UE Osoby fizyczne” sprawdza te same 32 typy encji. Działa na umowie PDF, rekordzie Excel i logu CSV. Ten sam silnik przetwarza wszystkie trzy.
Aby uzyskać więcej informacji na temat działania presetów w zadaniach wsadowych, zapoznaj się z naszym przewodnikiem dotyczącym wsadowego przetwarzania DSAR zgodnie z RODO.
Wsadowe przetwarzanie zestawów o mieszanych formatach
Zgodność z DSAR w skali oznacza przetwarzanie folderów o mieszanych formatach jako jednostki.
Dane wejściowe: Folder z 15 plikami — PDF, DOCX, XLSX, CSV — reprezentujący wszystkie dane przechowywane dla jednej osoby, której dane dotyczą.
Kroki przetwarzania:
- Wykryj format każdego pliku
- Zastosuj odpowiedni parser: wyodrębnianie tekstu PDF, parsowanie XML DOCX, iteracja komórek XLSX, parsowanie pól CSV
- Uruchom ten sam poto k NLP na wyodrębnionym tekście ze wszystkich plików
- Zastosuj ten sam preset do każdego pliku w partii
- Użyj wspólnej puli tokenów. Ta sama nazwa otrzymuje ten sam token zastępczy we wszystkich 15 plikach
Wynik:
- Zanonimizowane wersje wszystkich 15 plików w ich oryginalnych formatach
- Jeden raport audytu obejmujący wiele formatów. Pokazuje każdą wykrytą encję, jej dokument źródłowy, wynik ufności i podjęte działanie
Ten raport audytu to dokument zgodności. Dowodzi, że wszystkie 15 plików zostało przetworzonych według tego samego standardu. Na audycie organu nadzorczego jest to znacznie mocniejsze niż fragmentaryczne narzędzia.
Związane: prewencja PII w czasie rzeczywistym dla wycieków danych AI.
Znane ograniczenia zunifikowanych potoków
Unifikacja formatów rozwiązuje fragmentację. Ale wprowadza własne ograniczenia.
Wierność konwersji: Konwersja DOCX do formatu przetwarzania i z powrotem może utracić historię śledzonych zmian lub uszkodzić osadzone obiekty. Dokumenty prawne wymagają dodatkowej weryfikacji po przetworzeniu.
Utrzymanie specyficzne dla formatów: Rozpoznawacze encji dla CSV różnią się od tych dla zeskanowanych formularzy. „Zunifikowany” poto k nadal potrzebuje wstępnego przetwarzania specyficznego dla każdego formatu. To wstępne przetwarzanie wymaga aktualizacji w miarę ewolucji formatów.
Dokładność na rzadkich formatach: Większość modeli NLP trenuje na tekstach internetowych i popularnych dokumentach biurowych. Starsze formaty — stare pliki EDI, niestandardowe schematy XML, metadane CAD — często dają gorszą dokładność niż sugerują testy porównawcze.
Formaty niemożliwe do rekonstrukcji: Niektóre typy PDF i pliki tylko z obrazami nie mogą być anonimizowane w miejscu. Wymagają wizualnej redakcji. Wizualna redakcja niszczy strukturę czytelną maszynowo. Jeśli potrzebujesz wyszukiwania lub indeksowania po anonimizacji, może to być niewystarczające.
Praktyczny przepływ pracy DSAR
Dla zespółów ds. zgodności z regularnym wolumenem DSAR:
- Zbierz wszystkie dokumenty dotyczące osoby, której dane dotyczą
- Utwórz partię DSAR — przeciągnij wszystkie pliki, niezależnie od formatu
- Wybierz preset „DSAR UE Osoby fizyczne”
- Uruchom partię
- Pobierz zanonimizowane wyniki i skonsolidowany raport audytu
- Wyrywkowo sprawdź dwa lub trzy dokumenty z wyników
- Spakuj zanonimizowane dokumenty dla odpowiedzi do osoby, której dane dotyczą
- Dołącz raport audytu do rekordu sprawy DSAR
Krok 1 (ręczne zbieranie) to nadal główny koszt czasowy. Kroki od 2 do 8 zajmują mniej niż 10 minut dla typowej partii. Raport audytu z kroku 5 spełnia zasadę rozliczalności RODO.
anonym.legal obsługuje DOCX, PDF, XLSX, CSV i JSON. Każdy plik używa tego samego presetu. Jeden raport audytu obejmuje partię.