Dikemas kini untuk 2026

Audit GDPR sering mendedahkan risiko tersembunyi yang sama: arkib PDF lama berasaskan imej.

Firma undang-undang menyimpan 20 tahun fail klien yang diimbas. Hospital menyimpan borang pesakit selama beberapa dekad. Badan kerajaan menyimpan rekod yang diimbas. Bank mempunyai fail pinjaman berbentuk imej.

Arkib-arkib ini berkongsi satu ciri. Fail-failnya adalah imej raster — PDF yang diimbas, TIFF, atau JPEG. Tiada lapisan teks. Alat PII standard tidak dapat membacanya. Bagi kebanyakan alat anonimisasi, fail-fail ini seolah-olah tidak wujud.

Kepercayaan umum: "Ini adalah fail imej — GDPR tidak terpakai."

Artikel 17(1) GDPR memberi orang hak untuk pemadaman. Recital 26 menyatakan bahawa anonimisasi mengalih keluar maklumat peribadi daripada skop. Tiada satu pun mengecualikan format imej. Firma undang-undang yang tidak dapat memenuhi permintaan pemadaman untuk fail klien berusia 15 tahun mempunyai jurang pematuhan. Ia tidak mempunyai pengecualian.

Lihat gambaran keseluruhan pematuhan dan amalan keselamatan kami untuk cara kami menyokong GDPR.

Cara Saluran Pengesanan Berfungsi

Proses ini berjalan dalam tiga peringkat.

Peringkat 1 — OCR

Mesin OCR membaca imej dan mengekstrak teks. Ia merekodkan kedudukan setiap perkataan. Output adalah teks boleh-baca-mesin dengan koordinat. Ketepatan menurun apabila tulisan tangan, dakwat pudar, atau fon lama hadir.

Peringkat 2 — Pengesanan Entiti NLP

Pengenalan Entiti Bernama (NER) mengimbas teks OCR. Ia menemui nama orang, organisasi, dan lokasi. Pemadanan corak menambah SSN, nombor telefon, dan nombor akaun. Setiap padanan mendapat skor keyakinan.

Peringkat 3 — Anonimisasi

Entiti yang dikesan digantikan dalam output teks. Imej asal tidak diubah. Mengubah imej memerlukan alat redaksi berasingan. Teks yang dianonimisasi menyokong permintaan pemadaman, respons DSAR, dan rekod pematuhan.

Mesin OCR moden mencapai ketepatan aksara 98–99% pada halaman bercetak yang bersih. Tulisan tangan atau imbasan yang rosak turun kepada 85–92%. Ketepatan peringkat entiti cenderung lebih tinggi daripada ketepatan peringkat aksara. Nama boleh dikenal pasti walaupun beberapa huruf salah.

Kesimpulan praktikal: Ketepatan OCR mempengaruhi berapa banyak entiti yang anda tangkap. Ia tidak menentukan sama ada kaedah itu berfungsi. Walaupun pada ketepatan 90%, anda menemui kebanyakan nama dan nombor. Tahap kualiti masih diperlukan. Kaedah itu sendiri adalah kukuh.

Memproses Arkib Besar

Arkib warisan yang besar mengikuti aliran kerja empat fasa.

Fasa 1 — Inventori: Senaraikan semua arkib berasaskan imej. Catat sistem sumber dan julat tarikh. Dahulukan rekod berisiko tinggi pemadaman. Fail berhadapan klien didahulukan berbanding fail dalaman.

Fasa 2 — Pemprosesan kelompok: Jalankan OCR dan pengesanan PII dalam kelompok. Lima hingga sepuluh ribu fail setiap kelompok adalah saiz biasa. Pemprosesan berjalan pada waktu malam. Output adalah laporan PII dan ekstrak teks yang dianonimisasi untuk setiap fail.

Fasa 3 — Pemenuhan pemadaman: Subjek menghantar permintaan dengan nama dan tempoh mereka. Cari token mereka dalam ekstrak yang dianonimisasi. Cari fail. Redaksi. Log tindakan.

Fasa 4 — Pematuhan berterusan: Masukkan fail imbasan baharu melalui saluran yang sama sebelum mengarkibkannya. Simpan laporan PII sebagai bukti Rekod Aktiviti Pemprosesan Artikel 30.

Kajian Kes: Arkib Firma Undang-Undang

Audit firma undang-undang mendapati 80,000 kontrak klien PDF berasaskan imej yang diimbas dari 1998 hingga 2010. Alat PII standard menunjukkan sifar pengesanan. Format imej tidak kelihatan.

Lima belas bekas klien telah mengemukakan permintaan pemadaman dalam 12 bulan sebelumnya. Firma itu berkata: "Kami tidak dapat mengesahkan rekod anda telah dipadamkan." Jawapan itu tidak memenuhi Artikel 17 GDPR.

Apa yang firma lakukan:

Menjalankan OCR dan pengesanan PII pada semua 80,000 fail dalam kelompok 5,000
Pemprosesan mengambil masa kira-kira tiga minggu
Hasil: 80,000 ekstrak teks yang dianonimisasi dengan laporan setiap fail
Membina indeks boleh-cari yang menghubungkan entiti kepada ID fail

Selepas pemprosesan:

Mencari fail untuk satu subjek: purata 4 minit
Fail setiap permintaan: purata 6–8
Masa redaksi setiap permintaan: 20–30 minit

Semua 15 permintaan yang tertunggak diselesaikan dalam 30 hari.

Perkara utama: kewajipan pematuhan wujud sebelum pemprosesan. Firma itu hanya kekurangan alat untuk memenuhinya. Pemprosesan berasaskan OCR tidak mencipta kewajipan baharu. Ia menjadikan kewajipan sedia ada mungkin untuk dipenuhi.

Had OCR dan Tahap Kualiti

Tulisan tangan mempunyai ketepatan OCR yang lebih rendah. Tetapkan ambang keyakinan yang lebih rendah sebelum memproses kandungan tulisan tangan.

Kualiti imbasan yang rendah mengurangkan skor. Peningkatan kontras dan de-skewing membantu sebelum OCR dijalankan.

Susun atur yang luar biasa — halaman berbilang lajur, fon undang-undang lama — juga mungkin mendapat skor lebih rendah.

Tetapkan tahap kualiti untuk kerja pematuhan:

Melebihi 95% ketepatan halaman: jalankan pemprosesan automatik
80–95%: jalankan pemprosesan automatik, kemudian semakan manusia untuk entiti yang ditandai
Di bawah 80%: hantar ke semakan manual

Pendekatan bertingkat memberi pengawal selia jawapan yang jelas tentang cara anda menilai kebolehpercayaan. Kebanyakan alat automatik mengendalikan fail berkeyakinan tinggi. Baris gilir manual mengendalikan selebihnya. Pemprosesan kekal tinggi. Kualiti pematuhan kekal tinggi juga.

Soalan Lazim kami merangkumi soalan biasa tentang pemprosesan berasaskan OCR dan keperluan jejak audit.

Sumber

Artikel Berkaitan

GDPR & Pematuhan

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Dokumen Imbasan Lama GDPR: OCR + PII

Cara Saluran Pengesanan Berfungsi

Memproses Arkib Besar

Kajian Kes: Arkib Firma Undang-Undang

Had OCR dan Tahap Kualiti

Sumber

Artikel Berkaitan

PII Hos Sendiri Gagal Audit Pematuhan

Presidio Terlepas 220+ Entiti GDPR

Hanyutan Konfigurasi: Risiko GDPR yang Tersembunyi

Sedia untuk melindungi data anda?

Dokumen Imbasan Lama GDPR: OCR + PII

GDPR dan Fail Imbasan Lama: OCR untuk PII

Cara Saluran Pengesanan Berfungsi

Memproses Arkib Besar

Kajian Kes: Arkib Firma Undang-Undang

Had OCR dan Tahap Kualiti

Sumber

Artikel Berkaitan

PII Hos Sendiri Gagal Audit Pematuhan

Presidio Terlepas 220+ Entiti GDPR

Hanyutan Konfigurasi: Risiko GDPR yang Tersembunyi

Sedia untuk melindungi data anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow