By · Last updated 2026-06-05

Kembali ke BlogTeknikal

Pemecahan Format Dokumen dalam Alat PII

Satu respons DSAR mungkin merangkumi kontrak Word, invois PDF, senarai pelanggan Excel, dan eksport CSV. Menggunakan alat berbeza untuk setiap format mewujudkan jurang pematuhan.

June 5, 20267 min baca
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

Masalah Berbilang Format dalam Pematuhan PII

Dikemas kini untuk 2026

Tanya pegawai pematuhan format apa yang mereka anonimkan untuk respons DSAR. Senarainy sentiasa sama: kontrak Word, invois PDF, data pelanggan Excel, eksport CSV, dan log JSON.

Kemudian tanya alat yang mereka gunakan. Jawapannya biasanya tiga hingga lima. Setiap alat mempunyai liputan entiti yang berbeza. Setiap satu mempunyai tetapan yang berbeza. Setiap satu menghasilkan log audit yang berbeza.

Inilah pemecahan format. Ia mewujudkan jurang pematuhan sebenar.

Mengapa Pemecahan Berlaku

Tiada satu alat pun yang mengendalikan setiap format pengeluaran pada kualiti yang sama. Alat khusus muncul untuk setiap format. Satu untuk PDF. Satu untuk hamparan. Makro untuk CSV. Setiap satu mempunyai senarai entiti tersendiri. Tiada yang berkongsi jejak audit.

Hasilnya boleh dijangka. Respons DSAR merangkumi pelbagai jenis fail. Pelbagai alat memprosesnya. Setiap alat menggunakan piawaian berbeza. Entiti X ditangkap dalam PDF tetapi terlepas dalam fail Excel. Audit DPA mendedahkan ketakkonsistenan ini.

Cabaran Teknikal Khusus Format

Setiap format mewujudkan masalah pengesanan tersendiri.

PDF

PDF hadir dalam dua jenis: teks natif dan imbasan berasaskan imej. PDF yang diimbas memerlukan OCR terlebih dahulu. OCR memperkenalkan ralat. PDF natif sering menyimpan setiap perkataan sebagai objek teks berasingan. Ini memecahkan pengesanan entiti merentasi sempadan perkataan. Susun atur berbilang lajur memerlukan pembinaan semula susunan pembacaan sebelum analisis boleh bermula.

Word (DOCX)

Fail DOCX memegang teks dalam XML. Tetapi juga dalam pengepala, pengaki, ulasan, perubahan yang dijejaki, dan kotak teks. Alamat kepala surat dalam pengepala halaman adalah PII. Kebanyakan alat terlepasnya. Perubahan yang dijejaki boleh memegang PII yang dipadamkan. Teks itu tidak kelihatan dalam paparan yang dirender tetapi ada dalam fail.

Excel (XLSX)

Excel menyimpan PII merentasi mana-mana sel dalam ratusan lajur dan ribuan baris. Pengepala lajur seperti "SSN" atau "Email" memberikan konteks yang model NER terlepas dari teks mentah. Tarikh dan SSN sering disimpan sebagai nombor. Medan teks bebas seperti "nota pengurus" memegang PII tidak berstruktur. Alat berasaskan lajur melangkau medan tersebut.

CSV

CSV tidak mempunyai struktur Excel. Medan teks bebas dalam lajur "nota" mencampurkan PII dengan kandungan lain. Isu pengekodan — UTF-8 berbanding Latin-1 — menyebabkan kegagalan untuk aksara bukan ASCII dalam nama dan alamat Eropah.

JSON

JSON bersarang menguburkan PII jauh di dalam: user.address.street.line1. Tatasusunan memerlukan lelaran. Nama medan yang sama boleh memegang jenis data berbeza dalam objek berbeza. Pengesanan yang baik memerlukan kesedaran skema dan analisis kandungan bersama-sama.

Ketakkonsistenan Adalah Risiko Undang-Undang

Berikut adalah senario DSAR GDPR yang konkrit.

Subjek data meminta semua data peribadi yang dipegang tentang mereka. Pasukan pematuhan menemui fail ini:

  • 3 dokumen Word (kontrak, surat-menyurat).
  • 2 dokumen PDF (invois, transkrip sokongan).
  • 1 hamparan Excel (data akaun pelanggan).
  • 1 eksport CSV (log akses sistem).

Mereka menggunakan Alat A untuk PDF. Alat B untuk Word. Makro untuk XLSX. Semakan manual untuk CSV. Setiap alat mempunyai liputan entiti yang berbeza.

Subjek data mendapat pakej yang dianonimkan. Lajur "nota pengurus" Excel tidak diproses. Alamat kepala surat Word terlepas. Kedua-duanya mengandungi PII yang subjek data minta dianonimkan.

Di bawah Perkara 15 GDPR (hak akses) atau Perkara 17 (hak pemadaman), ini adalah respons DSAR yang tidak lengkap. Jika subjek data atau pengawal selia mendapati jurang itu, alat yang tidak konsisten adalah faktor penyumbang yang didokumentasikan.

Kes untuk Piawaian yang Konsisten

Pematuhan DSAR yang kukuh bukan sekadar menyenaraikan jenis PII yang perlu dianonimkan. Ia memerlukan piawaian yang sama merentasi setiap format dalam set respons.

Itu bermakna:

  • Jenis entiti yang sama diperiksa dalam Word, PDF, Excel, CSV, dan JSON.
  • Ambang keyakinan yang sama digunakan pada semua fail.
  • Token penggantian yang sama digunakan. Jika "John Smith" muncul dalam tiga dokumen, satu token menggantikan nama dalam ketiga-tiganya.
  • Satu jejak audit merangkumi semua format.

Penyelesaian platform tunggal menjadikan ini mungkin melalui pratetap. Satu pratetap "DSAR Individu EU" memeriksa 32 jenis entiti yang sama. Ia berjalan pada kontrak PDF, rekod Excel, dan log CSV. Enjin yang sama memproses ketiga-tiganya.

Untuk maklumat lanjut tentang cara pratetap berfungsi merentasi kerja kumpulan, lihat panduan kami tentang pemprosesan kumpulan DSAR GDPR pada skala.

Pemprosesan Kumpulan Set Berbilang Format

Pematuhan DSAR pada skala bermakna memproses folder berbilang format sebagai satu unit.

Input: Folder dengan 15 fail — PDF, DOCX, XLSX, CSV — mewakili semua data yang dipegang untuk satu subjek data.

Langkah pemprosesan:

  • Kesan format setiap fail.
  • Gunakan penghurai yang betul. Pengekstrakan teks PDF. Penghuraian XML DOCX. Lelaran sel XLSX. Penghuraian medan CSV.
  • Jalankan saluran NLP yang sama pada teks yang diekstrak dari semua fail.
  • Gunakan pratetap yang sama pada setiap fail dalam kumpulan.
  • Gunakan kumpulan token yang dikongsi. Nama yang sama mendapat token penggantian yang sama merentasi kesemua 15 fail.

Output:

  • Versi yang dianonimkan bagi kesemua 15 fail dalam format asal mereka.
  • Satu laporan audit merentas format. Ia menunjukkan setiap entiti yang dikesan, dokumen sumbernya, skor keyakinannya, dan tindakan yang diambil.

Laporan audit itu adalah dokumen pematuhan. Ia membuktikan kesemua 15 fail diproses dengan piawaian yang sama. Untuk audit DPA, ini jauh lebih kukuh daripada alat yang tidak selaras.

Berkaitan: pencegahan PII masa nyata untuk kebocoran data AI.

Had Saluran Bersatu yang Diketahui

Penyatuan format menyelesaikan pemecahan. Tetapi ia memperkenalkan kekangan tersendiri.

Kesetiaan penukaran: Menukar DOCX ke format pemprosesan dan kembali boleh kehilangan sejarah perubahan yang dijejaki atau merosakkan objek tertanam. Dokumen undang-undang memerlukan pengesahan tambahan selepas pemprosesan.

Penyelenggaraan setiap format: Pengecam entiti untuk CSV berbeza daripada borang yang diimbas. Saluran "bersatu" masih memerlukan prapemprosesan setiap format. Prapemprosesan itu memerlukan kemas kini apabila format berkembang.

Ketepatan pada format yang tidak biasa: Kebanyakan model NLP dilatih pada teks web dan dokumen pejabat biasa. Format warisan — fail EDI lama, skema XML tersuai, metadata CAD — sering menghasilkan ketepatan yang lebih buruk daripada penanda aras mencadangkan.

Format yang tidak boleh dibina semula: Beberapa jenis PDF dan fail hanya imej tidak boleh dianonimkan di tempat. Mereka memerlukan redaksi visual. Redaksi visual memusnahkan struktur yang boleh dibaca mesin. Jika anda memerlukan carian atau pengindeksan selepas anonimisasi, ini mungkin tidak mencukupi.

Aliran Kerja DSAR Praktikal

Untuk pasukan pematuhan dengan volum DSAR biasa:

  1. Kumpulkan semua dokumen untuk subjek data
  2. Cipta kumpulan DSAR — seret semua fail ke dalam, tanpa mengira format
  3. Pilih pratetap "DSAR Individu EU"
  4. Jalankan kumpulan
  5. Muat turun output yang dianonimkan dan laporan audit yang disatukan
  6. Semak semula dua atau tiga dokumen dari output
  7. Bungkus dokumen yang dianonimkan untuk respons subjek data
  8. Lampirkan laporan audit pada rekod kes DSAR

Langkah 1 (pengumpulan manual) masih merupakan kos masa utama. Langkah 2 hingga 8 mengambil masa kurang daripada 10 minit untuk kumpulan biasa. Laporan audit dari langkah 5 memenuhi prinsip akauntabiliti GDPR.


anonym.legal mengendalikan DOCX, PDF, XLSX, CSV, dan JSON. Setiap fail menggunakan pratetap yang sama. Satu laporan audit merangkumi kumpulan.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.