By · Last updated 2026-06-05

Kembali ke BlogGDPR & Pematuhan

Dokumen Imbasan Lama GDPR: OCR + PII

Hak pemadaman GDPR terpakai pada data peribadi 'tanpa mengira format.' PDF berasaskan imej daripada arkib kertas tidak dikecualikan.

June 5, 20267 min baca
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR dan Fail Imbasan Lama: OCR untuk PII

Dikemas kini untuk 2026

Audit GDPR sering mendedahkan risiko tersembunyi yang sama: arkib PDF lama berasaskan imej.

Firma undang-undang menyimpan 20 tahun fail klien yang diimbas. Hospital menyimpan borang pesakit selama beberapa dekad. Badan kerajaan menyimpan rekod yang diimbas. Bank mempunyai fail pinjaman berbentuk imej.

Arkib-arkib ini berkongsi satu ciri. Fail-failnya adalah imej raster — PDF yang diimbas, TIFF, atau JPEG. Tiada lapisan teks. Alat PII standard tidak dapat membacanya. Bagi kebanyakan alat anonimisasi, fail-fail ini seolah-olah tidak wujud.

Kepercayaan umum: "Ini adalah fail imej — GDPR tidak terpakai."

Artikel 17(1) GDPR memberi orang hak untuk pemadaman. Recital 26 menyatakan bahawa anonimisasi mengalih keluar maklumat peribadi daripada skop. Tiada satu pun mengecualikan format imej. Firma undang-undang yang tidak dapat memenuhi permintaan pemadaman untuk fail klien berusia 15 tahun mempunyai jurang pematuhan. Ia tidak mempunyai pengecualian.

Lihat gambaran keseluruhan pematuhan dan amalan keselamatan kami untuk cara kami menyokong GDPR.

Cara Saluran Pengesanan Berfungsi

Proses ini berjalan dalam tiga peringkat.

Peringkat 1 — OCR

Mesin OCR membaca imej dan mengekstrak teks. Ia merekodkan kedudukan setiap perkataan. Output adalah teks boleh-baca-mesin dengan koordinat. Ketepatan menurun apabila tulisan tangan, dakwat pudar, atau fon lama hadir.

Peringkat 2 — Pengesanan Entiti NLP

Pengenalan Entiti Bernama (NER) mengimbas teks OCR. Ia menemui nama orang, organisasi, dan lokasi. Pemadanan corak menambah SSN, nombor telefon, dan nombor akaun. Setiap padanan mendapat skor keyakinan.

Peringkat 3 — Anonimisasi

Entiti yang dikesan digantikan dalam output teks. Imej asal tidak diubah. Mengubah imej memerlukan alat redaksi berasingan. Teks yang dianonimisasi menyokong permintaan pemadaman, respons DSAR, dan rekod pematuhan.

Mesin OCR moden mencapai ketepatan aksara 98–99% pada halaman bercetak yang bersih. Tulisan tangan atau imbasan yang rosak turun kepada 85–92%. Ketepatan peringkat entiti cenderung lebih tinggi daripada ketepatan peringkat aksara. Nama boleh dikenal pasti walaupun beberapa huruf salah.

Kesimpulan praktikal: Ketepatan OCR mempengaruhi berapa banyak entiti yang anda tangkap. Ia tidak menentukan sama ada kaedah itu berfungsi. Walaupun pada ketepatan 90%, anda menemui kebanyakan nama dan nombor. Tahap kualiti masih diperlukan. Kaedah itu sendiri adalah kukuh.

Memproses Arkib Besar

Arkib warisan yang besar mengikuti aliran kerja empat fasa.

Fasa 1 — Inventori: Senaraikan semua arkib berasaskan imej. Catat sistem sumber dan julat tarikh. Dahulukan rekod berisiko tinggi pemadaman. Fail berhadapan klien didahulukan berbanding fail dalaman.

Fasa 2 — Pemprosesan kelompok: Jalankan OCR dan pengesanan PII dalam kelompok. Lima hingga sepuluh ribu fail setiap kelompok adalah saiz biasa. Pemprosesan berjalan pada waktu malam. Output adalah laporan PII dan ekstrak teks yang dianonimisasi untuk setiap fail.

Fasa 3 — Pemenuhan pemadaman: Subjek menghantar permintaan dengan nama dan tempoh mereka. Cari token mereka dalam ekstrak yang dianonimisasi. Cari fail. Redaksi. Log tindakan.

Fasa 4 — Pematuhan berterusan: Masukkan fail imbasan baharu melalui saluran yang sama sebelum mengarkibkannya. Simpan laporan PII sebagai bukti Rekod Aktiviti Pemprosesan Artikel 30.

Kajian Kes: Arkib Firma Undang-Undang

Audit firma undang-undang mendapati 80,000 kontrak klien PDF berasaskan imej yang diimbas dari 1998 hingga 2010. Alat PII standard menunjukkan sifar pengesanan. Format imej tidak kelihatan.

Lima belas bekas klien telah mengemukakan permintaan pemadaman dalam 12 bulan sebelumnya. Firma itu berkata: "Kami tidak dapat mengesahkan rekod anda telah dipadamkan." Jawapan itu tidak memenuhi Artikel 17 GDPR.

Apa yang firma lakukan:

  • Menjalankan OCR dan pengesanan PII pada semua 80,000 fail dalam kelompok 5,000
  • Pemprosesan mengambil masa kira-kira tiga minggu
  • Hasil: 80,000 ekstrak teks yang dianonimisasi dengan laporan setiap fail
  • Membina indeks boleh-cari yang menghubungkan entiti kepada ID fail

Selepas pemprosesan:

  • Mencari fail untuk satu subjek: purata 4 minit
  • Fail setiap permintaan: purata 6–8
  • Masa redaksi setiap permintaan: 20–30 minit

Semua 15 permintaan yang tertunggak diselesaikan dalam 30 hari.

Perkara utama: kewajipan pematuhan wujud sebelum pemprosesan. Firma itu hanya kekurangan alat untuk memenuhinya. Pemprosesan berasaskan OCR tidak mencipta kewajipan baharu. Ia menjadikan kewajipan sedia ada mungkin untuk dipenuhi.

Had OCR dan Tahap Kualiti

Tulisan tangan mempunyai ketepatan OCR yang lebih rendah. Tetapkan ambang keyakinan yang lebih rendah sebelum memproses kandungan tulisan tangan.

Kualiti imbasan yang rendah mengurangkan skor. Peningkatan kontras dan de-skewing membantu sebelum OCR dijalankan.

Susun atur yang luar biasa — halaman berbilang lajur, fon undang-undang lama — juga mungkin mendapat skor lebih rendah.

Tetapkan tahap kualiti untuk kerja pematuhan:

  • Melebihi 95% ketepatan halaman: jalankan pemprosesan automatik
  • 80–95%: jalankan pemprosesan automatik, kemudian semakan manusia untuk entiti yang ditandai
  • Di bawah 80%: hantar ke semakan manual

Pendekatan bertingkat memberi pengawal selia jawapan yang jelas tentang cara anda menilai kebolehpercayaan. Kebanyakan alat automatik mengendalikan fail berkeyakinan tinggi. Baris gilir manual mengendalikan selebihnya. Pemprosesan kekal tinggi. Kualiti pematuhan kekal tinggi juga.

Soalan Lazim kami merangkumi soalan biasa tentang pemprosesan berasaskan OCR dan keperluan jejak audit.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.