By · Last updated 2026-06-05

Atgal į BlogąTechninė

Dokumentų formatų fragmentacija PII anonimizavimo įrankiuose

Vienas DSAR atsakymas gali apimti Word sutartis, PDF sąskaitas, Excel klientų sąrašus ir CSV eksportus. Skirtingų įrankių naudojimas kiekvienam formatui sukuria spragas.

June 5, 20267 min skaityti
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Kelių formatų problema PII atitikties srityje

Atnaujinta 2026 m.

Paklauskite atitikties pareigūno, kokius formatus jie anonimizuoja DSAR atsakymams. Sąrašas visada tas pats: Word sutartys, PDF sąskaitos, Excel klientų duomenys, CSV eksportai ir JSON žurnalai.

Tada paklauskite, kokius įrankius jie naudoja. Atsakymas paprastai yra trys iki penki. Kiekvienas įrankis turi skirtingą objektų aprėptį. Kiekvienas turi skirtingus nustatymus. Kiekvienas gamina skirtingą audito žurnalą.

Tai yra formatų fragmentacija. Ji sukuria realias atitikties spragas.

Kodėl atsiranda fragmentacija

Nė vienas įrankis nekontroliavo kiekvieno gamybos formato tokia pačia kokybe. Specializuoti įrankiai atsirado kiekvienam formatui. Vienas PDF failams. Vienas skaičiuoklėms. Makrokomanda CSV. Kiekvienas turi savo objektų sąrašą. Nė vienas nesidalija audito keliu.

Rezultatas yra nuspėjamas. DSAR atsakymas apima kelis failų tipus. Keli įrankiai juos apdoroja. Kiekvienas įrankis naudoja skirtingus standartus. X objektas aptinkamas PDF, bet praleidžiamas Excel faile. DPA auditas atskleidžia šį nenuoseklumą.

Kiekvienam formatui būdingi techniniai iššūkiai

Kiekvienas formatas sukuria savų aptikimo problemų.

PDF

PDF failai yra dviejų tipų: natyvus tekstas ir vaizdo pagrindu sukurti nuskaitymai. Nuskaityti PDF failai pirmiausia reikalauja OCR. OCR įveda klaidų. Natyvūs PDF failai dažnai saugo kiekvieną žodį kaip atskirą teksto objektą. Tai sulaužo objektų aptikimą per žodžių ribas. Daugelio stulpelių išdėstymai reikalauja skaitymo tvarkos rekonstrukcijos prieš pradedant analizę.

Word (DOCX)

DOCX failai laiko tekstą XML. Bet taip pat antraštėse, poraštėse, komentaruose, sekamose pakeitimuose ir teksto laukeliuose. Puslapio antraštėje esantis laiško pavadinimo adresas yra asmens duomenys. Dauguma įrankių jo praleidžia. Sekamos pakeitimai gali laikyti ištrintus asmens duomenis. Tas tekstas yra nematomas atvaizduotame rodinyje, bet esantis faile.

Excel (XLSX)

Excel saugo asmens duomenis bet kurioje ląstelėje šimtų stulpelių ir tūkstančių eilučių. Stulpelių antraštės, tokios kaip "SSN" ar "El. paštas", suteikia kontekstą, kurį NER modeliai praleidžia iš neapdoroto teksto. Datos ir socialinio draudimo numeriai dažnai saugomi kaip skaičiai. Laisvojo teksto laukai, tokie kaip "vadovo pastabos", laiko nestruktūrizuotus asmens duomenis. Stulpeliais pagrįsti įrankiai praleidžia tuos laukus.

CSV

CSV neturi Excel struktūros. Laisvojo teksto laukai "pastabų" stulpeliuose maišo asmens duomenis su kitu turiniu. Kodavimo problemos - UTF-8 prieš Latin-1 - sukelia nesėkmes ne ASCII simboliams Europos varduose ir adresuose.

JSON

Įnelgtasis JSON giliai paslepia asmens duomenis: user.address.street.line1. Masyvams reikalinga iteracija. Tas pats lauko pavadinimas gali laikyti skirtingus duomenų tipus skirtinguose objektuose. Geras aptikimas reikalauja schemos supratimo ir turinio analizės kartu.

Nenuoseklumas yra teisinė rizika

Stai konkretus BDAR DSAR scenarijus.

Duomenų subjektas prašo visų apie jį saugomų asmens duomenų. Atitikties komanda randa šiuos failus:

  • 3 Word dokumentai (sutartys, korespondencija).
  • 2 PDF dokumentai (sąskaitos, palaikymo stenogramos).
  • 1 Excel skaičiuoklė (kliento sąskaitos duomenys).
  • 1 CSV eksportas (sistemos prieigos žurnalai).

Jie naudoja A įrankį PDF failams. B įrankį Word. Makrokomandą XLSX. Rankinę peržiūrą CSV. Kiekvienas įrankis turi skirtingą objektų aprėptį.

Duomenų subjektas gauna anonimizuotą paketą. Excel "vadovo pastabų" stulpelis nebuvo apdorotas. Word laiško pavadinimo adresas buvo praleistas. Abu turi asmens duomenų, kurių anonimizavimą duomenų subjektas paprašė.

Pagal BDAR 15 straipsnį (teisė susipažinti) ar 17 straipsnį (teisė būti pamirštam), tai yra neišsamus DSAR atsakymas. Jei duomenų subjektas ar reguliatorius randa spragą, nenuosekli įrankių naudojimas yra dokumentuotas prisidedantis veiksnys.

Argumentas dėl nuoseklaus standarto

Stipri DSAR atitiktis ne tik išvardija, kokius asmens duomenų tipus anonimizuoti. Ji reikalauja to paties standarto visuose atsakymų rinkinio formatuose.

Tai reiškia:

  • Tie patys objektų tipai patikrinami Word, PDF, Excel, CSV ir JSON.
  • Tie patys pasikliautinumo slenkstiai taikomi visiems failams.
  • Naudojami tie patys pakeitimų prieketai. Jei "Jonas Jonaitis" pasirodo trijuose dokumentuose, vienas prieketis pakeičia vardą visuose trijuose.
  • Vienas audito kelias, apimantis visus formatus.

Vienos platformos sprendimas tai įgalina per išankstines nuostatas. Viena "DSAR ES Asmenys" išankstinė nuostata patikrina tuos pačius 32 objektų tipus. Ji veikia PDF sutartyje, Excel įraše ir CSV žurnale. Tą patį variklį apdoroja visus tris.

Daugiau apie tai, kaip išankstinės nuostatos veikia paketinių užduočių atveju, žiūrėkite mūsų vadovą apie BDAR DSAR paketinį apdorojimą plačiu mastu.

Mišrių formatų rinkinių paketinis apdorojimas

DSAR atitiktis didelio masto reiškia mišrių formatų aplankų apdorojimą kaip vienetą.

Įvestis: Aplankas su 15 failų - PDF, DOCX, XLSX, CSV - atspindintis visus vieno duomenų subjekto laikomus duomenis.

Apdorojimo žingsniai:

  • Aptikite kiekvieno failo formatą.
  • Taikykite tinkamą analizatorių. PDF teksto ištraukimas. DOCX XML analizavimas. XLSX ląstelių iteracija. CSV lauko analizavimas.
  • Vykdykite tą pačią NLP konveijerį ant ištraukto teksto iš visų failų.
  • Taikykite tą pačią išankstinę nuostatą kiekvienam partijos failui.
  • Naudokite bendrą prieketų fondą. Tas pats vardas gauna tą patį pakeitimo prieketą visuose 15 failų.

Išvestis:

  • Anonimizuotos visų 15 failų versijos jų originaliais formatais.
  • Viena tarptautinės formato audito ataskaita. Ji rodo kiekvieną aptiktą objektą, jo šaltinio dokumentą, pasikliautinumo balą ir imtus veiksmus.

Ta audito ataskaita yra atitikties dokumentas. Ji įrodo, kad visi 15 failų buvo apdoroti tuo pačiu standartu. DPA auditui tai daug stipriau nei skirtingi įrankiai.

Susijęs straipsnis: realaus laiko AAS duomenų nutekėjimo prevencija.

Suvienodintų konveijų žinomos ribos

Formatų suvienodinimas išsprendžia fragmentacijos problemą. Bet įveda savų apribojimų.

Konvertavimo tikslumas: DOCX konvertavimas į apdorojimo formatą ir atgal gali prarasti keitimų sekimo istoriją arba sugadinti įterptuosius objektus. Teisiniai dokumentai reikalauja papildomo patikrinimo po apdorojimo.

Kiekvienai formatui skirta priežiūra: Objektų atpažintuvai CSV failams skiriasi nuo tų, skirtų nuskaitytiems blanks. "Suvienodintas" konveijus vis tiek reikalauja kiekvienam formatui skirto preapdorojimo. Tas preapdorojimas reikalauja atnaujinimų, kai formatai keičiasi.

Tikslumas neįprastiems formatams: Daugelis NLP modelių mokomi ant tinklapio teksto ir įprastų biuro dokumentų. Pasenę formatai - seni EDI failai, pasirinktinės XML schemos, CAD metaduomenys - dažnai duoda blogesnį tikslumą nei lyginamosios vertės rodo.

Neatkuriami formatai: Kai kurie PDF tipai ir tik vaizdo failai negali būti anonimizuoti vietoje. Jiems reikalingas vizualus redagavimas. Vizualus redagavimas sunaikina mašinai skaitomą struktūrą. Jei jums reikia paieškos ar indeksavimo po anonimizavimo, tai gali nepatenkinti.

Praktinis DSAR darbo eigos

Atitikties komandoms su reguliariu DSAR apkrovimu:

  1. Surinkite visus duomenų subjekto dokumentus
  2. Sukurkite DSAR partiją - įtraukite visus failus nepaisant formato
  3. Pasirinkite "DSAR ES Asmenys" išankstinę nuostatą
  4. Vykdykite partiją
  5. Atsisiųskite anonimizuotus rezultatus ir konsoliduotą audito ataskaitą
  6. Patikrinkite du ar tris rezultato dokumentus
  7. Supakuokite anonimizuotus dokumentus duomenų subjekto atsakymui
  8. Pridėkite audito ataskaitą prie DSAR bylos įrašo

1 žingsnis (rankinis rinkimas) vis dar yra pagrindinis laiko sąnaudas. 2–8 žingsniai užtrunka mažiau nei 10 minučių tipinei partijai. 5 žingsnio audito ataskaita atitinka BDAR atskaitomybės principą.


anonym.legal tvarko DOCX, PDF, XLSX, CSV ir JSON. Kiekvienas failas naudoja tą pačią išankstinę nuostatą. Viena audito ataskaita apima partiją.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.