By · Last updated 2026-06-05

Povratak na BlogTehnički

Fragmentacija formata dokumenata u alatima za PII

Jedan odgovor na DSAR moze obuhvatiti Word ugovore, PDF fakture, Excel popise korisnika i CSV izvoze. Koristenje razlicitih alata za svaki format stvara praznine u sukladnosti.

June 5, 20267 min čitanja
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Problem visestrukih formata u uskladjenosti s PII propisima

Azurirano za 2026. godinu

Pitajte sluzbenik za sukladnost koje formate anonimiziraju za odgovore na DSAR-ove. Popis je uvijek isti: Word ugovori, PDF fakture, Excel podaci o korisnicima, CSV izvozi i JSON zapisnici.

Zatim pitajte koje alate koriste. Odgovor je obicno tri do pet. Svaki alat ima razlicit opseg entiteta. Svaki ima razlicite postavke. Svaki proizvodi razlicit zapis revizije.

To je fragmentacija formata. Stvara stvarne praznine u sukladnosti.

Zasto dolazi do fragmentacije

Nijedan alat nije obradivao svaki produkcijski format jednako kvalitetno. Specijalizirani alati pojavili su se za svaki format. Jedan za PDF-ove. Jedan za tablice. Makronaredba za CSV. Svaki ima vlastiti popis entiteta. Nijedan ne dijeli revizijski trag.

Rezultat je predvidljiv. Odgovor na DSAR obuhvaca vise vrsta datoteka. Vise alata ga obradjuje. Svaki alat koristi razlicite standarde. Entitet X se uhvati u PDF-u, ali propusti u Excel datoteci. Revizije DPA-e otkrivaju ovu nedosljednost.

Tehnicke izazove specificne za format

Svaki format stvara vlastite probleme detekcije.

PDF

PDF-ovi dolaze u dva tipa: nativni tekst i skenovi temeljeni na slici. Skenirani PDF-ovi trebaju OCR prvo. OCR uvodi pogreske. Nativni PDF-ovi cesto pohranjuju svaku rijec kao zasebni tekstualni objekt. To kida detekciju entiteta na granicama rijeci. Visestupacni rasporedi trebaju rekonstrukciju redosljeda citanja prije nego sto analiza moze zapoceti.

Word (DOCX)

DOCX datoteke drzE tekst u XML-u. Ali i u zaglavljima, podnozjima, komentarima, pracenim promjenama i tekstualnim okvirima. Adresa u zaglavlju stranice je PII. Vecina alata to propusta. Pracene promjene mogu drzati izbrisane PII. Taj tekst je nevidljiv u renderiranom prikazu, ali prisutan u datoteci.

Excel (XLSX)

Excel pohranjuje PII u bilo kojoj celiji u stotinama stupaca i tisucama redaka. Zaglavlja stupaca poput "OIB" ili "Email" daju kontekst koji NER modeli ne primjecuju iz sirovog teksta. Datumi i OIB-ovi cesto su pohranjeni kao brojevi. Polja slobodnog teksta poput "biljeski menadzera" drze nestrukturirani PII. Alati temeljeni na stupcima preskacu ta polja.

CSV

CSV nema Excelovu strukturu. Polja slobodnog teksta u stupcima "biljezaka" mijesaju PII s drugim sadrzajem. Problemi s kodiranjem - UTF-8 nasuprot Latin-1 - uzrokuju kvarove za ne-ASCII znakove u europskim imenima i adresama.

JSON

Ugnijezdeni JSON zakopava PII duboko: user.address.street.line1. Polja zahtijevaju iteraciju. Isti naziv polja moze drzati razlicite tipove podataka u razlicitim objektima. Dobra detekcija zahtijeva svjesnost sheme i analizu sadrzaja zajedno.

Nedosljednost je pravni rizik

Evo konkretnog GDPR DSAR scenarija.

Osoba ciji se podaci obraduju trazi sve osobne podatke koji se o njoj drze. Tim za sukladnost pronalazi ove datoteke:

  • 3 Word dokumenta (ugovori, prepiska).
  • 2 PDF dokumenta (fakture, prijepisi podrske).
  • 1 Excel tablica (podaci o korisnickim racunima).
  • 1 CSV izvoz (zapisnici pristupa sustavu).

Koriste Alat A za PDF-ove. Alat B za Word. Makronaredbu za XLSX. Rucni pregled za CSV. Svaki alat ima razlicit opseg entiteta.

Osoba ciji se podaci obraduju dobiva anonimizirani paket. Stupac "biljeski menadzera" u Excelu nije bio obradjivan. Adresa u zaglavlju Word-a je propustena. Obje sadrze PII koji je osoba zatrazila anonimizaciju.

Prema GDPR clanu 15 (pravo pristupa) ili clanu 17 (pravo na brisanje), ovo je nepotpun odgovor na DSAR. Ako osoba ciji se podaci obraduju ili regulator pronadje prazninu, nedosljedni alati dokumentirani su pridonoseci faktor.

Argument za dosljedan standard

Svrsishodna sukladnost sa DSAR-om ne navodi samo koje vrste PII anonimizirati. Zahtijeva isti standard za svaki format u skupu odgovora.

To znaci:

  • Iste vrste entiteta provjeravaju se u Wordu, PDF-u, Excelu, CSV-u i JSON-u.
  • Isti pragovi pouzdanosti primjenjuju se na sve datoteke.
  • Isti zamjenski tokeni se koriste. Ako se "Ivan Horvat" pojavljuje u tri dokumenta, jedan token zamjenjuje ime u sva tri.
  • Jedan revizijski trag pokriva sve formate.

Rjesenje s jednom platformom to omogucuje putem unaprijed postavljenih postavki. Jedna "DSAR EU Pojedinci" postavka provjerava istih 32 vrste entiteta. Pokrecete je na PDF ugovoru, Excel zapisu i CSV zapisniku. Isti motor obradjuje sva tri.

Za vise o tome kako postavke rade na grupnim poslovima, pogledajte nas vodic za GDPR DSAR grupnu obradu u velikom obimu.

Grupna obrada skupova mijesanih formata

GDPR sukladnost u velikom obimu znaci obradu mapa mijesanih formata kao cjeline.

Ulaz: Mapa s 15 datoteka - PDF-ovi, DOCX, XLSX, CSV - predstavljajuci sve podatke koji se drze za jednu osobu.

Koraci obrade:

  • Otkrijte format svake datoteke.
  • Primijenite pravi parser. Ekstrakcija PDF teksta. DOCX XML parsiranje. XLSX iteracija celi ja. CSV parsiranje polja.
  • Pokrenite isti NLP cjevovod na ekstrahiranom tekstu iz svih datoteka.
  • Primijenite iste postavke na svaku datoteku u grupi.
  • Koristite zajednicki skup tokena. Isto ime dobiva isti zamjenski token u svih 15 datoteka.

Izlaz:

  • Anonimizirane verzije svih 15 datoteka u njihovim originalnim formatima.
  • Jedan medijatski revizijski izvjestaj. Prikazuje svaki otkriveni entitet, jeho izvorni dokument, ocjenu pouzdanosti i poduzetu radnju.

Taj revizijski izvjestaj je dokument o sukladnosti. Dokazuje da je svih 15 datoteka obradeno s istim standardom. Za DPA reviziju, ovo je daleko jace od necjelovitih alata.

Povezano: prevencija PII curenja u stvarnom vremenu za AI curenja podataka.

Poznata ogranicenja unificiranih cjevovoda

Unifikacija formata rjesava fragmentaciju. Ali uvodi vlastita ogranicenja.

Vjernost konverzije: Konvertiranje DOCX-a u format za obradu i natrag moze izgubiti povijest pracenja promjena ili ostetiti ugradene objekte. Pravni dokumenti trebaju dodatnu validaciju nakon obrade.

Odrzavanje po formatu: Prepoznavaci entiteta za CSV razlikuju se od onih za skenirane obrasce. "Unificirani" cjevovod jos uvijek treba pretprocesiranje po formatu. To pretprocesiranje treba azuriranja kako se formati razvijaju.

Tocnost na neuobicajenim formatima: Vecina NLP modela trenira na web tekstu i uobicajenim uredskim dokumentima. Naslijedjeni formati - stare EDI datoteke, prilagodjene XML sheme, CAD metapodaci - cesto proizvode losiju tocnost nego sto mjerila sugeriraju.

Nerekonstruktibilni formati: Neke vrste PDF-a i datoteke samo s slikama ne mogu se anonimizirati na licu mjesta. Trebaju vizualnu redakciju. Vizualna redakcija unistava strojno citljivu strukturu. Ako trebate pretrazivanje ili indeksiranje nakon anonimizacije, ovo mozda nece biti dovoljno.

Prakticni DSAR tijek rada

Za timove za sukladnost s redovitim DSAR volumenima:

  1. Prikupite sve dokumente za osobu ciji se podaci obraduju
  2. Stvorite DSAR grupu - odvucite sve datoteke, bez obzira na format
  3. Odaberite postavku "DSAR EU Pojedinci"
  4. Pokrenite grupu
  5. Preuzmite anonimizirane izlaze i konsolidirani revizijski izvjestaj
  6. Provjerite dva ili tri dokumenta iz izlaza uzimanjem uzoraka
  7. Zapakirajte anonimizirane dokumente za odgovor osobi ciji se podaci obraduju
  8. Prilagajte revizijski izvjestaj zapisu slucaja DSAR-a

Korak 1 (rucno prikupljanje) je i dalje glavni vremenski trosak. Koraci 2 do 8 traju manje od 10 minuta za tipicnu grupu. Revizijski izvjestaj iz koraka 5 zadovoljava nacelo odgovornosti GDPR-a.


anonym.legal rukuje DOCX, PDF, XLSX, CSV i JSON. Svaka datoteka koristi iste postavke. Jedan revizijski izvjestaj pokriva grupu.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.