By · Last updated 2026-06-05

Kembali ke BlogGDPR & Kepatuhan

Dokumen Lama Pindaian GDPR: OCR + PII

Hak hapus GDPR berlaku untuk data pribadi 'tanpa memandang format.' PDF berbasis gambar dari arsip kertas tidak dikecualikan.

June 5, 20267 menit baca
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Masalah Arsip Lama yang Sering Diabaikan

Organisasi yang menjalani audit kepatuhan GDPR sering menemukan kategori risiko tersembunyi yang sama: arsip PDF berbasis gambar dari sebelum program digitalisasi diterapkan.

Firma hukum dengan 20 tahun file klien yang dipindai. Penyedia layanan kesehatan dengan puluhan tahun formulir intake pasien yang dipindai. Lembaga pemerintah dengan catatan historis yang dipindai. Bank dengan aplikasi pinjaman dan dokumen rekening yang diimaging.

Arsip-arsip ini memiliki karakteristik yang sama: dokumen disimpan sebagai gambar pindaian (PDF raster, TIFF, atau JPEG), bukan sebagai dokumen digital berbasis teks. Tidak ada lapisan teks untuk dicari, tidak ada konten yang dapat dibaca mesin oleh alat PII standar. Bagi alat anonimisasi konvensional, dokumen-dokumen ini tidak terlihat.

Kesalahpahaman umum: "Ini hanya file gambar — GDPR tidak benar-benar berlaku."

Teks GDPR tegas. Pasal 17(1) memberi subjek data hak untuk menghapus data pribadi. Recital 26 menegaskan bahwa anonimisasi data pribadi adalah standar untuk data yang tidak lagi berkaitan dengan orang alami yang dapat diidentifikasi. Tidak ada ketentuan yang mengecualikan format gambar yang berasal dari kertas.

Firma hukum yang tidak dapat merespons permintaan hak hapus untuk klien yang dilayani 15 tahun lalu — karena catatan klien 15 tahun lalu hanya ada sebagai PDF gambar pindaian — memiliki kesenjangan kepatuhan GDPR, bukan pengecualian.

Cara Kerja Deteksi PII Berbasis Gambar

Pipeline teknis untuk deteksi PII dokumen berbasis gambar mengintegrasikan dua tahap:

Tahap 1: Optical Character Recognition (OCR)

  • Input: PDF pindaian atau file gambar
  • Mesin OCR mengekstrak teks dari gambar pindaian
  • Output: teks yang dapat dibaca mesin dengan koordinat posisi
  • Tantangan: tulisan tangan, kualitas pindaian buruk, tinta pudar, dan jenis huruf lama mengurangi akurasi OCR

Tahap 2: Deteksi PII dengan NLP

  • Input: teks yang diekstrak OCR
  • Named Entity Recognition (NER) mengidentifikasi nama orang, organisasi, lokasi
  • Pencocokan pola mengidentifikasi NIK, nomor telepon, alamat email, nomor rekening
  • Output: entitas PII yang terdeteksi dengan skor kepercayaan dan referensi posisi

Tahap 3: Anonimisasi

  • Entitas yang terdeteksi dianonimkan dalam output teks yang diekstrak
  • Untuk PDF gambar: outputnya adalah dokumen teks yang telah dianonimkan (gambar asli tidak dimodifikasi — modifikasi gambar memerlukan tooling redaksi PDF)
  • Teks yang dianonimkan memungkinkan respons DSAR, pemenuhan permintaan hapus, dan dokumentasi kepatuhan

Kualitas OCR adalah kendala teknis utama. Untuk dokumen cetak berkualitas baik, mesin OCR modern mencapai akurasi karakter 98-99%. Untuk tulisan tangan atau pindaian yang rusak, akurasi mungkin 85-92%. Untuk keperluan deteksi PII, akurasi tingkat entitas (mengidentifikasi dengan benar bahwa sebuah nama muncul dalam dokumen, bahkan jika karakter individual memiliki kesalahan kecil) biasanya lebih tinggi daripada akurasi tingkat karakter.

Pemrosesan Praktis untuk Arsip Besar

Untuk organisasi dengan arsip lama yang besar, alur kerja operasionalnya:

Fase inventaris:

  • Katalog semua arsip PDF berbasis gambar berdasarkan sistem sumber dan rentang tanggal
  • Perkirakan volume dan prioritaskan berdasarkan risiko hak hapus (catatan yang menghadap klien lebih dahulu)

Pemrosesan batch:

  • Proses arsip dalam batch (5.000-10.000 file per batch adalah umum)
  • OCR + deteksi PII berjalan secara asinkron
  • Output: laporan deteksi PII per file dan ekstrak teks yang dianonimkan

Pemenuhan hak hapus:

  • Subjek data mengajukan permintaan hapus dengan nama dan periode yang relevan
  • Cari ekstrak teks yang dianonimkan untuk token pseudonim yang terhubung ke subjek data
  • Identifikasi dokumen tertentu yang berisi catatan subjek data
  • Proses dokumen tertentu tersebut untuk redaksi (memodifikasi PDF gambar asli)
  • Dokumentasikan tindakan hapus

Kepatuhan berkelanjutan:

  • Dokumen pindaian baru diproses melalui pipeline yang sama sebelum diarsipkan
  • Laporan deteksi PII disimpan sebagai bukti Catatan Aktivitas Pemrosesan Pasal 30 GDPR

Studi Kasus: Arsip 20 Tahun Firma Hukum

Sebuah firma hukum yang menjalani audit GDPR menemukan 80.000 kontrak klien PDF berbasis gambar yang dipindai antara 1998 dan 2010. Alat PII standar mengembalikan nol deteksi — format berbasis gambar tidak terlihat.

Masalah kepatuhannya konkret: 15 mantan klien telah mengajukan permintaan hak hapus dalam 12 bulan sebelumnya. Respons firma: "Kami tidak dapat mengkonfirmasi bahwa data Anda telah dihapus karena catatan historis kami dalam format gambar yang tidak dapat kami proses." Ini bukan respons yang patuh berdasarkan Pasal 17 GDPR.

Pendekatan pemrosesan:

  • OCR + deteksi PII pada semua 80.000 dokumen dalam batch 5.000
  • Waktu pemrosesan: sekitar 3 minggu pemrosesan batch
  • Hasil: 80.000 ekstrak teks yang dianonimkan dengan laporan deteksi PII per file
  • Indeks yang dapat dicari dari entitas yang terdeteksi yang terhubung ke ID dokumen

Pemenuhan permintaan hapus setelah pemrosesan:

  • Rata-rata waktu untuk mengidentifikasi dokumen bagi subjek data tertentu: 4 menit (pencarian pada ekstrak teks yang dianonimkan)
  • Jumlah dokumen per permintaan hapus: rata-rata 6-8 dokumen
  • Redaksi dokumen yang diidentifikasi: 20-30 menit per permintaan

Kewajiban kepatuhan yang sebelumnya tidak mungkin dipenuhi: berhasil dipenuhi. 15 permintaan hapus yang tertunda diselesaikan dalam 30 hari setelah menyelesaikan pemrosesan arsip.

Keterbatasan OCR dan Manajemen Kualitas

Penilaian jujur tentang deteksi PII berbasis OCR untuk dokumen lama memerlukan pengakuan keterbatasan:

Akurasi tulisan tangan: Dokumen tulisan tangan (pernyataan pribadi, formulir aplikasi yang diisi dengan tangan) memiliki akurasi OCR yang lebih rendah daripada dokumen cetak. Deteksi PII pada konten tulisan tangan memerlukan penyesuaian ambang kepercayaan.

Kualitas pindaian yang buruk: Dokumen yang dipindai dengan resolusi rendah atau pencahayaan buruk memiliki akurasi OCR yang berkurang. Pra-pemrosesan (peningkatan kontras, koreksi kemiringan) dapat meningkatkan hasil.

Font dan format tidak biasa: Jenis huruf pra-digital, format dokumen hukum dengan tata letak tidak biasa, dan dokumen multi-kolom mungkin memiliki akurasi OCR yang lebih rendah.

Pengaturan ambang kualitas: Untuk dokumentasi kepatuhan, tepat untuk mengklasifikasikan dokumen berdasarkan kepercayaan OCR: kepercayaan tinggi (>95% akurasi halaman) cocok untuk pemrosesan otomatis; kepercayaan sedang (80-95%) cocok untuk pemrosesan otomatis dengan tinjauan manusia pada entitas yang ditandai; kepercayaan rendah (<80%) memerlukan tinjauan manual.

Untuk organisasi dengan arsip besar dokumen historis yang rusak, pendekatan hybrid — pemrosesan otomatis untuk dokumen kepercayaan tinggi, antrian tinjauan manual untuk dokumen kepercayaan rendah — memberikan throughput praktis sambil mempertahankan kualitas kepatuhan.

Sumber:

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.