Problem wielu formatów w zgodności z RODO

Zaktualizowano w 2026 r.

Zapytaj pracownika ds. zgodności, które formaty anonimizuje na potrzeby odpowiedzi DSAR. Lista jest zawsze taka sama: umowy Word, faktury PDF, dane klientów Excel, eksporty CSV i logi JSON.

Następnie zapytaj, jakich narzędzi używa. Odpowiedź to zazwyczaj trzy do pięciu. Każde narzędzie ma inny zakres wykrywanych encji. Każde ma różne ustawienia. Każde generuje inny log audytu.

To właśnie fragmentacja formatów. Tworzy realne luki w zgodności.

Dlaczego fragmentacja występuje

Żadne pojedyncze narzędzie nie obsłużyło każdego formatu produkcyjnego na tym samym poziomie jakości. Dla każdego formatu powstały specjalistyczne narzędzia. Jedno do plików PDF. Jedno do arkuszy kalkulacyjnych. Makro do CSV. Każde ma własną listę encji. żadne nie współdzieli ścieżki audytu.

Efekt jest przewidywalny. Odpowiedź DSAR obejmuje wiele typów plików. Przetwarza je wiele narzędzi. Każde stosuje inne standardy. Encja X jest wychwycona w pliku PDF, ale pominięta w pliku Excel. Audyty organów nadzorczych ujawniają tę niespojność.

Techniczne wyzwania specyficzne dla formatów

Każdy format tworzy własne problemy z wykrywaniem.

PDF

Pliki PDF występują w dwóch typach: natywny tekst i skany oparte na obrazach. Zeskanowane pliki PDF wymagają najpierw OCR. OCR wprowadza błędy. Natywne pliki PDF często przechowują każde słowo jako osobny obiekt tekstowy. Niszczy to wykrywanie encji na granicach słów. Układy wielokolumnowe wymagają rekonstrukcji kolejności czytania przed rozpoczęciem analizy.

Word (DOCX)

Pliki DOCX przechowują tekst w formacie XML. Ale także w nagłówkach, stopkach, komentarzach, śledzonych zmianach i polach tekstowych. Adres w nagłówku strony to dane osobowe. Większość narzędzi go pomija. Śledzone zmiany mogą zawierać usunięte dane osobowe. Ten tekst jest niewidoczny w wyrenderowan ym widoku, ale obecny w pliku.

Excel (XLSX)

Excel przechowuje dane osobowe w dowolnej komórce spośród setek kolumn i tysięcy wierszy. Nagłówki kolumn takie jak „PESEL” lub „Email” dają kontekst, który modele NER przegapiają w surowym tekście. Daty i numery identyfikacyjne są często przechowywane jako liczby. Pola tekstowe, takie jak „uwagi kierownika”, zawierają nieustrukturyzowane dane osobowe. Narzędzia oparte na kolumnach pomijają te pola.

CSV

CSV nie ma struktury Excela. Pola tekstowe w kolumnach „uwagi” mieszają dane osobowe z inną treścią. Problemy z kodowaniem — UTF-8 versus Latin-1 — powodują błędy przy znakach spoza ASCII w europejskich imionach i adresach.

JSON

Zagnieżdżony JSON ukrywa dane osobowe głęboko: user.address.street.line1. Tablice wymagają iteracji. Ta sama nazwa pola może zawierać różne typy danych w różnych obiektach. Dobre wykrywanie wymaga jednocześnie świadomości schematu i analizy treści.

Niespojność to ryzyko prawne

Oto konkretny scenariusz DSAR w ramach RODO.

Osoba, której dane dotyczą, żąda wszystkich danych osobowych przechowywanych na jej temat. Zespół ds. zgodności znajduje następujące pliki:

3 dokumenty Word (umowy, korespondencja)
2 dokumenty PDF (faktury, transkrypcje wsparcia)
1 arkusz kalkulacyjny Excel (dane konta klienta)
1 eksport CSV (logi dostępu do systemu)

Używają Narzędzia A do plików PDF. Narzędzia B do Worda. Makra do XLSX. Ręcznego przeglądu do CSV. Każde narzędzie ma inny zakres encji.

Osoba, której dane dotyczą, otrzymuje zanonimizowany pakiet. Kolumna „uwagi kierownika” w Excelu nie była przetwarzana. Adres w nagłówku Worda został pominięty. Oba zawierają dane osobowe, które osoba, której dane dotyczą, zażądała zanonimizować.

Na podstawie art. 15 RODO (prawo dostępu) lub art. 17 (prawo do usunięcia) jest to niekompletna odpowiedź DSAR. Jeśli osoba, której dane dotyczą, lub regulator odkryje lukę, niespojne narzędzie jest udokumentowanym czynnikiem przyczyniającym się.

Argument za spójnym standardem

Silna zgodność z DSAR nie tylko wymienia typy danych osobowych do anonimizacji. Wymaga tego samego standardu we wszystkich formatach w zestawie odpowiedzi.

Oznacza to:

Te same typy encji sprawdzane w Wordzie, PDF, Excelu, CSV i JSON
Te same progi ufności stosowane do wszystkich plików
Te same tokeny zastępcze. Jeśli „Jan Kowalski” pojawia się w trzech dokumentach, jeden token zastępuje imię i nazwisko we wszystkich trzech
Jedna ścieżka audytu obejmująca wszystkie formaty

Rozwiązanie jednoplatformowe umożliwia to poprzez presety. Jeden preset „DSAR UE Osoby fizyczne” sprawdza te same 32 typy encji. Działa na umowie PDF, rekordzie Excel i logu CSV. Ten sam silnik przetwarza wszystkie trzy.

Aby uzyskać więcej informacji na temat działania presetów w zadaniach wsadowych, zapoznaj się z naszym przewodnikiem dotyczącym wsadowego przetwarzania DSAR zgodnie z RODO.

Wsadowe przetwarzanie zestawów o mieszanych formatach

Zgodność z DSAR w skali oznacza przetwarzanie folderów o mieszanych formatach jako jednostki.

Dane wejściowe: Folder z 15 plikami — PDF, DOCX, XLSX, CSV — reprezentujący wszystkie dane przechowywane dla jednej osoby, której dane dotyczą.

Kroki przetwarzania:

Wykryj format każdego pliku
Zastosuj odpowiedni parser: wyodrębnianie tekstu PDF, parsowanie XML DOCX, iteracja komórek XLSX, parsowanie pól CSV
Uruchom ten sam poto k NLP na wyodrębnionym tekście ze wszystkich plików
Zastosuj ten sam preset do każdego pliku w partii
Użyj wspólnej puli tokenów. Ta sama nazwa otrzymuje ten sam token zastępczy we wszystkich 15 plikach

Wynik:

Zanonimizowane wersje wszystkich 15 plików w ich oryginalnych formatach
Jeden raport audytu obejmujący wiele formatów. Pokazuje każdą wykrytą encję, jej dokument źródłowy, wynik ufności i podjęte działanie

Ten raport audytu to dokument zgodności. Dowodzi, że wszystkie 15 plików zostało przetworzonych według tego samego standardu. Na audycie organu nadzorczego jest to znacznie mocniejsze niż fragmentaryczne narzędzia.

Związane: prewencja PII w czasie rzeczywistym dla wycieków danych AI.

Znane ograniczenia zunifikowanych potoków

Unifikacja formatów rozwiązuje fragmentację. Ale wprowadza własne ograniczenia.

Wierność konwersji: Konwersja DOCX do formatu przetwarzania i z powrotem może utracić historię śledzonych zmian lub uszkodzić osadzone obiekty. Dokumenty prawne wymagają dodatkowej weryfikacji po przetworzeniu.

Utrzymanie specyficzne dla formatów: Rozpoznawacze encji dla CSV różnią się od tych dla zeskanowanych formularzy. „Zunifikowany” poto k nadal potrzebuje wstępnego przetwarzania specyficznego dla każdego formatu. To wstępne przetwarzanie wymaga aktualizacji w miarę ewolucji formatów.

Dokładność na rzadkich formatach: Większość modeli NLP trenuje na tekstach internetowych i popularnych dokumentach biurowych. Starsze formaty — stare pliki EDI, niestandardowe schematy XML, metadane CAD — często dają gorszą dokładność niż sugerują testy porównawcze.

Formaty niemożliwe do rekonstrukcji: Niektóre typy PDF i pliki tylko z obrazami nie mogą być anonimizowane w miejscu. Wymagają wizualnej redakcji. Wizualna redakcja niszczy strukturę czytelną maszynowo. Jeśli potrzebujesz wyszukiwania lub indeksowania po anonimizacji, może to być niewystarczające.

Praktyczny przepływ pracy DSAR

Dla zespółów ds. zgodności z regularnym wolumenem DSAR:

Zbierz wszystkie dokumenty dotyczące osoby, której dane dotyczą
Utwórz partię DSAR — przeciągnij wszystkie pliki, niezależnie od formatu
Wybierz preset „DSAR UE Osoby fizyczne”
Uruchom partię
Pobierz zanonimizowane wyniki i skonsolidowany raport audytu
Wyrywkowo sprawdź dwa lub trzy dokumenty z wyników
Spakuj zanonimizowane dokumenty dla odpowiedzi do osoby, której dane dotyczą
Dołącz raport audytu do rekordu sprawy DSAR

Krok 1 (ręczne zbieranie) to nadal główny koszt czasowy. Kroki od 2 do 8 zajmują mniej niż 10 minut dla typowej partii. Raport audytu z kroku 5 spełnia zasadę rozliczalności RODO.

anonym.legal obsługuje DOCX, PDF, XLSX, CSV i JSON. Każdy plik używa tego samego presetu. Jeden raport audytu obejmuje partię.

Źródła

Pokrewne artykuły

Techniczne

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

Rozpocznij bezpłatny okres próbny Zobacz funkcje

Fragmentacja formatów dokumentów w narzędziach PII

Problem wielu formatów w zgodności z RODO

Dlaczego fragmentacja występuje

Techniczne wyzwania specyficzne dla formatów

PDF

Word (DOCX)

Excel (XLSX)

CSV

JSON

Niespojność to ryzyko prawne

Argument za spójnym standardem

Wsadowe przetwarzanie zestawów o mieszanych formatach

Znane ograniczenia zunifikowanych potoków

Praktyczny przepływ pracy DSAR

Źródła

Pokrewne artykuły

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gotowy, aby chronić swoje dane?

Fragmentacja formatów dokumentów w narzędziach PII

Problem wielu formatów w zgodności z RODO

Dlaczego fragmentacja występuje

Techniczne wyzwania specyficzne dla formatów

PDF

Word (DOCX)

Excel (XLSX)

CSV

JSON

Niespojność to ryzyko prawne

Argument za spójnym standardem

Wsadowe przetwarzanie zestawów o mieszanych formatach

Znane ograniczenia zunifikowanych potoków

Praktyczny przepływ pracy DSAR

Źródła

Pokrewne artykuły

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gotowy, aby chronić swoje dane?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow