By · Last updated 2026-06-05

Tagasi BlogisseTehniline

Dokumendivormingute killustumine PII-tööriistades

Üks DSAR-vastus võib hõlmata Wordi lepinguid, PDF-arveid, Exceli kliendiloendeid ja CSV-eksporte. Eri tööriistade kasutamine iga vormingu jaoks tekitab lünki.

June 5, 20267 min lugemist
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Mitme vormingu probleem PII-nõuetele vastavuses

Uuendatud 2026. aastaks

Küsige nõuetele vastavuse spetsialistilt, milliseid vorminguid nad DSAR-vastuste jaoks anonümiseerivad. Nimekiri on alati sama: Wordi lepingud, PDF-arved, Exceli kliendiandmed, CSV-eksportid ja JSON-logid.

Seejärel küsige, milliseid tööriistu nad kasutavad. Vastus on tavaliselt kolm kuni viis. Igal tööriistal on erinev olemite hõlmavus. Igal tööriistal on erinevad seaded. Igal tuuriistal on erinev auditilogi.

See on vormingute killustumine. See loob reaalseid nõuetele vastavuse lünki.

Miks killustumine juhtub

Ükski tööriist ei ole käsitlenud kõiki tootmisvorminguid sama kvaliteediga. Iga vormingu jaoks tekkisid spetsialiseeritud tööriistad. Üks PDF-idele. Üks arvutustabelitele. Makro CSV jaoks. Igal on oma olemite nimekiri. Ükski ei jaga auditiloogu.

Tulemus on etteaimatav. DSAR-vastus ulatub mitme failitüübi vahele. Mitmed tööriistad töötlevad seda. Iga tööriist kasutab erinevaid standardeid. Olem X tabatakse PDF-is, kuid Exceli failis jäetakse märkamata. DPA auditid paljastavad selle ebajärjepidevuse.

Vormingupõhised tehnilised väljakutsed

Igal vormingul on oma avastamisprobleemid.

PDF

PDF-id on kahte tüüpi: algne tekst ja pildipõhised skaneeringud. Skannitud PDF-id vajavad esmalt OCR-i. OCR toob kaasa vigu. Algsed PDF-id salvestavad sageli iga sona eraldi tekstiobjektina. See katkestab olemite tuvastuse sõnapiirüleselt. Mitme veeruga küljendused vajavad lugemiskorra rekonstrueerimist enne analüüsi alustamist.

Word (DOCX)

DOCX-failid hoiavad teksti XML-is. Kuid ka päistes, jalustes, kommentaarides, jälgitud muudatustes ja tekstikastides. Lehe päises olev kirjablankettiaadrass on isikuandmed. Enamik tööriistu jätab selle märkamata. Jälgitud muudatused võivad sisaldada kustutatud isikuandmeid. See tekst on renderdatud vaates nähtamatu, kuid failis olemas.

Excel (XLSX)

Excel salvestab isikuandmed kõikides sadade veergude ja tuhandete ridade lahtrites. Veergude päised nagu "SSN" või "Email" annavad konteksti, mille NER-mudelid toortekstist vahele jätavad. Kuupäevad ja SSN-id salvestatakse sageli numbritena. Vabateksti väljad nagu "juhi märkmed" sisaldavad struktureerimata isikuandmeid. Veerupõhised tööriistad jätavad need väljad vahele.

CSV

CSV-l puudub Exceli struktuur. Vabateksti väljad "märkmete" veergudes segistavad isikuandmeid muu sisuga. Kodeerimisprobleemid - UTF-8 versus Latin-1 - põhjustavad tõrkeid Euroopa nimede ja aadresside mitte-ASCII märkide puhul.

JSON

Pesastatud JSON matab isikuandmed sügavale: user.address.street.line1. Massiivid vajavad itereerimist. Sama välja nimi võib eri objektides sisaldada erinevat andmetüüpi. Hea tuvastus vajab nii skeemiteadlikkust kui ka sisupõhist analüüsi.

Ebajärjepidevus on juriidiline risk

Siin on konkreetne GDPR DSAR stsenaarium.

Andmesubjekt taotleb kõiki tema kohta hoitavaid isikuandmeid. Nõuetele vastavuse meeskond leiab need failid:

  • 3 Wordi dokumenti (lepingud, kirjavahetus).
  • 2 PDF-dokumenti (arved, tugiteenuse transkriptid).
  • 1 Exceli arvutustabel (kliendikonto andmed).
  • 1 CSV-eksport (süsteemijuurdepääsu logid).

Nad kasutavad PDF-ide jaoks Tööriista A. Wordi jaoks Tööriista B. XLSX jaoks makrot. CSV jaoks käsitsi ülevaatamist. Igal tööriistal on erinev olemite hõlmavus.

Andmesubjekt saab anonümiseeritud paketi. Exceli "juhi märkmete" veergu ei töödeldud. Wordi kirjablankettiaadressi jäeti märkamata. Mõlemad sisaldavad isikuandmeid, mida andmesubjekt palus anonümiseerida.

GDPR artikli 15 (juurdepääsuõigus) või artikli 17 (kustutamisõigus) alusel on see mittetäielik DSAR-vastus. Kui andmesubjekt või järelevalveasutus leiab lünga, on ebajärjepidev tööriistade kasutamine dokumenteeritud kaasaaitav tegur.

Argumentatsioon ühtse standardi kasuks

Tugev DSAR-nõuetele vastavus ei loetle ainult, milliseid PII-tüüpe anonümiseerida. See nõuab sama standardit kõigi vastusekomplekti vormingute lõikes.

See tähendab:

  • Samad olemite tüübid kontrollitakse Wordis, PDF-is, Excelis, CSV-s ja JSON-is.
  • Samad usaldusväärsuse läved rakendatakse kõikidele failidele.
  • Samad asendamismärgid kasutatakse. Kui "Jaan Tamm" ilmub kolmes dokumendis, asendab üks märk nime kõigis kolmes.
  • Üks auditilogi katab kõik vormingud.

Ühe platvormi lahendus muudab selle võimalikuks eelseadistuste kaudu. Üks "DSAR EL-i üksikisikud" eelseadistus kontrollib samu 32 olemitüüpi. See töötab PDF-lepingus, Exceli kirjes ja CSV-logis. Sama mootor töötleb kõiki kolme.

Lisateabe saamiseks selle kohta, kuidas eelseadistused toimivad partiitöötluses, vaadake meie juhendit GDPR DSAR partii töötlemine suurel skaalal.

Segavorminguliste komplektide partiitöötlus

DSAR-nõuetele vastavus suurel skaalal tähendab segavorminguliste kaustade töötlemist ühe üksusena.

Sisend: Kaust 15 failiga - PDF-id, DOCX, XLSX, CSV - mis esindavad kõiki ühe andmesubjekti kohta hoitavaid andmeid.

Töötlemise sammud:

  • Tuvastage iga faili vorming.
  • Rakendage õige sõeluja. PDF-teksti eraldamine. DOCX XML-i sõelumine. XLSX-lahtrite itereerimine. CSV-väljade sõelumine.
  • Käivitage sama NLP-konveier kõigist failidest eraldatud teksti peal.
  • Rakendage sama eelseadistus igale partii failile.
  • Kasutage jagatud märgi-kogu. Sama nimi saab sama asendamismärgi kõigis 15 failis.

Väljund:

  • Kõigi 15 faili anonümiseeritud versioonid nende algsetes vormingutes.
  • Üks ristivormiinguline auditiaruanne. See näitab iga tuvastatud olemit, selle lähtedokumenti, usaldusväärsuse skoori ja võetud toimingut.

See auditiaruanne on nõuetele vastavuse dokument. See tõendab, et kõiki 15 faili töödeldi sama standardiga. DPA auditi jaoks on see palju tugevam kui tükkhaaval tööriistad.

Seotud: isikuandmete reaalajas ennetamine AI-andmete lekete korral.

Ühtlustatud konveieri teadaolevad piirangud

Vormingute ühtlustamine lahendab killustumise. Kuid see toob kaasa oma piirangud.

Konversiooni truudus: DOCX-i teisendamine töötlusvormingusse ja tagasi võib kaotada muudatuste jälgimise ajaloo või rikkuda manustatud objekte. Juriidilised dokumendid vajavad pärast töötlemist lisavalideerimist.

Vormingupõhine hooldus: CSV-i olemituvastajad erinevad skannitud vormide omadest. "Ühtne" konveier vajab siiski vormingupõhist eeltöötlust. See eeltöötlus vajab uuendamist vormingute arenedes.

Täpsus ebatavaliste vormingute puhul: Enamik NLP-mudeleid treenib veebitekstidel ja tavalistel kontori dokumentidel. Pärandvormingud - vanad EDI-failid, kohandatud XML-skeemid, CAD-metaandmed - annavad sageli halvemaid tulemusi kui võrdlustestid näitavad.

Mitte-rekonstrueeritavad vormingud: Mõnda PDF-tüüpi ja ainult-pildifaile ei saa kohapeal anonümiseerida. Need vajavad visuaalset tsenseerimist. Visuaalne tsenseerimine hävitab masinloetava struktuuri. Kui vajate pärast anonümiseerimist otsingut või indekseerimist, võib see jääda ebapiisavaks.

Praktiline DSAR töövoog

Tavalise DSAR-mahuga nõuetele vastavuse meeskondadele:

  1. Koguge kõik andmesubjekti dokumendid
  2. Looge DSAR-partii - lohistage kõik failid sisse, olenemata vormingust
  3. Valige eelseadistus "DSAR EL-i üksikisikud"
  4. Käivitage partii
  5. Laadige alla anonümiseeritud väljundid ja konsolideeritud auditiaruanne
  6. Kontrollige pistelist kahe-kolme väljundi dokumendi
  7. Pakkige anonümiseeritud dokumendid andmesubjekti vastuse jaoks
  8. Lisage auditiaruanne DSAR-juhtumi kirjele

Samm 1 (käsitsi kogumine) on endiselt peamine ajakulu. Sammud 2 kuni 8 võtavad tüüpilise partii puhul alla 10 minuti. Sammu 5 auditiaruanne vastab GDPR-i vastutuspõhimõttele.


anonym.legal käsitleb DOCX, PDF, XLSX, CSV ja JSON faile. Iga fail kasutab sama eelseadistust. Üks auditiaruanne katab partii.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.