By · Last updated 2026-06-05

Powrót do blogaTechniczne

Fragmentacja formatów dokumentów w narzędziach PII

Jedna odpowiedź DSAR może obejmować umowy Word, faktury PDF, listy klientów Excel i eksporty CSV. Używanie różnych narzędzi dla każdego formatu tworzy luki w zgodności z RODO.

June 5, 20267 min czytania
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Problem wielu formatów w zgodności z RODO

Zaktualizowano w 2026 r.

Zapytaj pracownika ds. zgodności, które formaty anonimizuje na potrzeby odpowiedzi DSAR. Lista jest zawsze taka sama: umowy Word, faktury PDF, dane klientów Excel, eksporty CSV i logi JSON.

Następnie zapytaj, jakich narzędzi używa. Odpowiedź to zazwyczaj trzy do pięciu. Każde narzędzie ma inny zakres wykrywanych encji. Każde ma różne ustawienia. Każde generuje inny log audytu.

To właśnie fragmentacja formatów. Tworzy realne luki w zgodności.

Dlaczego fragmentacja występuje

Żadne pojedyncze narzędzie nie obsłużyło każdego formatu produkcyjnego na tym samym poziomie jakości. Dla każdego formatu powstały specjalistyczne narzędzia. Jedno do plików PDF. Jedno do arkuszy kalkulacyjnych. Makro do CSV. Każde ma własną listę encji. żadne nie współdzieli ścieżki audytu.

Efekt jest przewidywalny. Odpowiedź DSAR obejmuje wiele typów plików. Przetwarza je wiele narzędzi. Każde stosuje inne standardy. Encja X jest wychwycona w pliku PDF, ale pominięta w pliku Excel. Audyty organów nadzorczych ujawniają tę niespojność.

Techniczne wyzwania specyficzne dla formatów

Każdy format tworzy własne problemy z wykrywaniem.

PDF

Pliki PDF występują w dwóch typach: natywny tekst i skany oparte na obrazach. Zeskanowane pliki PDF wymagają najpierw OCR. OCR wprowadza błędy. Natywne pliki PDF często przechowują każde słowo jako osobny obiekt tekstowy. Niszczy to wykrywanie encji na granicach słów. Układy wielokolumnowe wymagają rekonstrukcji kolejności czytania przed rozpoczęciem analizy.

Word (DOCX)

Pliki DOCX przechowują tekst w formacie XML. Ale także w nagłówkach, stopkach, komentarzach, śledzonych zmianach i polach tekstowych. Adres w nagłówku strony to dane osobowe. Większość narzędzi go pomija. Śledzone zmiany mogą zawierać usunięte dane osobowe. Ten tekst jest niewidoczny w wyrenderowan ym widoku, ale obecny w pliku.

Excel (XLSX)

Excel przechowuje dane osobowe w dowolnej komórce spośród setek kolumn i tysięcy wierszy. Nagłówki kolumn takie jak „PESEL” lub „Email” dają kontekst, który modele NER przegapiają w surowym tekście. Daty i numery identyfikacyjne są często przechowywane jako liczby. Pola tekstowe, takie jak „uwagi kierownika”, zawierają nieustrukturyzowane dane osobowe. Narzędzia oparte na kolumnach pomijają te pola.

CSV

CSV nie ma struktury Excela. Pola tekstowe w kolumnach „uwagi” mieszają dane osobowe z inną treścią. Problemy z kodowaniem — UTF-8 versus Latin-1 — powodują błędy przy znakach spoza ASCII w europejskich imionach i adresach.

JSON

Zagnieżdżony JSON ukrywa dane osobowe głęboko: user.address.street.line1. Tablice wymagają iteracji. Ta sama nazwa pola może zawierać różne typy danych w różnych obiektach. Dobre wykrywanie wymaga jednocześnie świadomości schematu i analizy treści.

Niespojność to ryzyko prawne

Oto konkretny scenariusz DSAR w ramach RODO.

Osoba, której dane dotyczą, żąda wszystkich danych osobowych przechowywanych na jej temat. Zespół ds. zgodności znajduje następujące pliki:

  • 3 dokumenty Word (umowy, korespondencja)
  • 2 dokumenty PDF (faktury, transkrypcje wsparcia)
  • 1 arkusz kalkulacyjny Excel (dane konta klienta)
  • 1 eksport CSV (logi dostępu do systemu)

Używają Narzędzia A do plików PDF. Narzędzia B do Worda. Makra do XLSX. Ręcznego przeglądu do CSV. Każde narzędzie ma inny zakres encji.

Osoba, której dane dotyczą, otrzymuje zanonimizowany pakiet. Kolumna „uwagi kierownika” w Excelu nie była przetwarzana. Adres w nagłówku Worda został pominięty. Oba zawierają dane osobowe, które osoba, której dane dotyczą, zażądała zanonimizować.

Na podstawie art. 15 RODO (prawo dostępu) lub art. 17 (prawo do usunięcia) jest to niekompletna odpowiedź DSAR. Jeśli osoba, której dane dotyczą, lub regulator odkryje lukę, niespojne narzędzie jest udokumentowanym czynnikiem przyczyniającym się.

Argument za spójnym standardem

Silna zgodność z DSAR nie tylko wymienia typy danych osobowych do anonimizacji. Wymaga tego samego standardu we wszystkich formatach w zestawie odpowiedzi.

Oznacza to:

  • Te same typy encji sprawdzane w Wordzie, PDF, Excelu, CSV i JSON
  • Te same progi ufności stosowane do wszystkich plików
  • Te same tokeny zastępcze. Jeśli „Jan Kowalski” pojawia się w trzech dokumentach, jeden token zastępuje imię i nazwisko we wszystkich trzech
  • Jedna ścieżka audytu obejmująca wszystkie formaty

Rozwiązanie jednoplatformowe umożliwia to poprzez presety. Jeden preset „DSAR UE Osoby fizyczne” sprawdza te same 32 typy encji. Działa na umowie PDF, rekordzie Excel i logu CSV. Ten sam silnik przetwarza wszystkie trzy.

Aby uzyskać więcej informacji na temat działania presetów w zadaniach wsadowych, zapoznaj się z naszym przewodnikiem dotyczącym wsadowego przetwarzania DSAR zgodnie z RODO.

Wsadowe przetwarzanie zestawów o mieszanych formatach

Zgodność z DSAR w skali oznacza przetwarzanie folderów o mieszanych formatach jako jednostki.

Dane wejściowe: Folder z 15 plikami — PDF, DOCX, XLSX, CSV — reprezentujący wszystkie dane przechowywane dla jednej osoby, której dane dotyczą.

Kroki przetwarzania:

  • Wykryj format każdego pliku
  • Zastosuj odpowiedni parser: wyodrębnianie tekstu PDF, parsowanie XML DOCX, iteracja komórek XLSX, parsowanie pól CSV
  • Uruchom ten sam poto k NLP na wyodrębnionym tekście ze wszystkich plików
  • Zastosuj ten sam preset do każdego pliku w partii
  • Użyj wspólnej puli tokenów. Ta sama nazwa otrzymuje ten sam token zastępczy we wszystkich 15 plikach

Wynik:

  • Zanonimizowane wersje wszystkich 15 plików w ich oryginalnych formatach
  • Jeden raport audytu obejmujący wiele formatów. Pokazuje każdą wykrytą encję, jej dokument źródłowy, wynik ufności i podjęte działanie

Ten raport audytu to dokument zgodności. Dowodzi, że wszystkie 15 plików zostało przetworzonych według tego samego standardu. Na audycie organu nadzorczego jest to znacznie mocniejsze niż fragmentaryczne narzędzia.

Związane: prewencja PII w czasie rzeczywistym dla wycieków danych AI.

Znane ograniczenia zunifikowanych potoków

Unifikacja formatów rozwiązuje fragmentację. Ale wprowadza własne ograniczenia.

Wierność konwersji: Konwersja DOCX do formatu przetwarzania i z powrotem może utracić historię śledzonych zmian lub uszkodzić osadzone obiekty. Dokumenty prawne wymagają dodatkowej weryfikacji po przetworzeniu.

Utrzymanie specyficzne dla formatów: Rozpoznawacze encji dla CSV różnią się od tych dla zeskanowanych formularzy. „Zunifikowany” poto k nadal potrzebuje wstępnego przetwarzania specyficznego dla każdego formatu. To wstępne przetwarzanie wymaga aktualizacji w miarę ewolucji formatów.

Dokładność na rzadkich formatach: Większość modeli NLP trenuje na tekstach internetowych i popularnych dokumentach biurowych. Starsze formaty — stare pliki EDI, niestandardowe schematy XML, metadane CAD — często dają gorszą dokładność niż sugerują testy porównawcze.

Formaty niemożliwe do rekonstrukcji: Niektóre typy PDF i pliki tylko z obrazami nie mogą być anonimizowane w miejscu. Wymagają wizualnej redakcji. Wizualna redakcja niszczy strukturę czytelną maszynowo. Jeśli potrzebujesz wyszukiwania lub indeksowania po anonimizacji, może to być niewystarczające.

Praktyczny przepływ pracy DSAR

Dla zespółów ds. zgodności z regularnym wolumenem DSAR:

  1. Zbierz wszystkie dokumenty dotyczące osoby, której dane dotyczą
  2. Utwórz partię DSAR — przeciągnij wszystkie pliki, niezależnie od formatu
  3. Wybierz preset „DSAR UE Osoby fizyczne”
  4. Uruchom partię
  5. Pobierz zanonimizowane wyniki i skonsolidowany raport audytu
  6. Wyrywkowo sprawdź dwa lub trzy dokumenty z wyników
  7. Spakuj zanonimizowane dokumenty dla odpowiedzi do osoby, której dane dotyczą
  8. Dołącz raport audytu do rekordu sprawy DSAR

Krok 1 (ręczne zbieranie) to nadal główny koszt czasowy. Kroki od 2 do 8 zajmują mniej niż 10 minut dla typowej partii. Raport audytu z kroku 5 spełnia zasadę rozliczalności RODO.


anonym.legal obsługuje DOCX, PDF, XLSX, CSV i JSON. Każdy plik używa tego samego presetu. Jeden raport audytu obejmuje partię.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.