GDPR dan Fail Imbasan Lama: OCR untuk PII
Dikemas kini untuk 2026
Audit GDPR sering mendedahkan risiko tersembunyi yang sama: arkib PDF lama berasaskan imej.
Firma undang-undang menyimpan 20 tahun fail klien yang diimbas. Hospital menyimpan borang pesakit selama beberapa dekad. Badan kerajaan menyimpan rekod yang diimbas. Bank mempunyai fail pinjaman berbentuk imej.
Arkib-arkib ini berkongsi satu ciri. Fail-failnya adalah imej raster — PDF yang diimbas, TIFF, atau JPEG. Tiada lapisan teks. Alat PII standard tidak dapat membacanya. Bagi kebanyakan alat anonimisasi, fail-fail ini seolah-olah tidak wujud.
Kepercayaan umum: "Ini adalah fail imej — GDPR tidak terpakai."
Artikel 17(1) GDPR memberi orang hak untuk pemadaman. Recital 26 menyatakan bahawa anonimisasi mengalih keluar maklumat peribadi daripada skop. Tiada satu pun mengecualikan format imej. Firma undang-undang yang tidak dapat memenuhi permintaan pemadaman untuk fail klien berusia 15 tahun mempunyai jurang pematuhan. Ia tidak mempunyai pengecualian.
Lihat gambaran keseluruhan pematuhan dan amalan keselamatan kami untuk cara kami menyokong GDPR.
Cara Saluran Pengesanan Berfungsi
Proses ini berjalan dalam tiga peringkat.
Peringkat 1 — OCR
Mesin OCR membaca imej dan mengekstrak teks. Ia merekodkan kedudukan setiap perkataan. Output adalah teks boleh-baca-mesin dengan koordinat. Ketepatan menurun apabila tulisan tangan, dakwat pudar, atau fon lama hadir.
Peringkat 2 — Pengesanan Entiti NLP
Pengenalan Entiti Bernama (NER) mengimbas teks OCR. Ia menemui nama orang, organisasi, dan lokasi. Pemadanan corak menambah SSN, nombor telefon, dan nombor akaun. Setiap padanan mendapat skor keyakinan.
Peringkat 3 — Anonimisasi
Entiti yang dikesan digantikan dalam output teks. Imej asal tidak diubah. Mengubah imej memerlukan alat redaksi berasingan. Teks yang dianonimisasi menyokong permintaan pemadaman, respons DSAR, dan rekod pematuhan.
Mesin OCR moden mencapai ketepatan aksara 98–99% pada halaman bercetak yang bersih. Tulisan tangan atau imbasan yang rosak turun kepada 85–92%. Ketepatan peringkat entiti cenderung lebih tinggi daripada ketepatan peringkat aksara. Nama boleh dikenal pasti walaupun beberapa huruf salah.
Kesimpulan praktikal: Ketepatan OCR mempengaruhi berapa banyak entiti yang anda tangkap. Ia tidak menentukan sama ada kaedah itu berfungsi. Walaupun pada ketepatan 90%, anda menemui kebanyakan nama dan nombor. Tahap kualiti masih diperlukan. Kaedah itu sendiri adalah kukuh.
Memproses Arkib Besar
Arkib warisan yang besar mengikuti aliran kerja empat fasa.
Fasa 1 — Inventori: Senaraikan semua arkib berasaskan imej. Catat sistem sumber dan julat tarikh. Dahulukan rekod berisiko tinggi pemadaman. Fail berhadapan klien didahulukan berbanding fail dalaman.
Fasa 2 — Pemprosesan kelompok: Jalankan OCR dan pengesanan PII dalam kelompok. Lima hingga sepuluh ribu fail setiap kelompok adalah saiz biasa. Pemprosesan berjalan pada waktu malam. Output adalah laporan PII dan ekstrak teks yang dianonimisasi untuk setiap fail.
Fasa 3 — Pemenuhan pemadaman: Subjek menghantar permintaan dengan nama dan tempoh mereka. Cari token mereka dalam ekstrak yang dianonimisasi. Cari fail. Redaksi. Log tindakan.
Fasa 4 — Pematuhan berterusan: Masukkan fail imbasan baharu melalui saluran yang sama sebelum mengarkibkannya. Simpan laporan PII sebagai bukti Rekod Aktiviti Pemprosesan Artikel 30.
Kajian Kes: Arkib Firma Undang-Undang
Audit firma undang-undang mendapati 80,000 kontrak klien PDF berasaskan imej yang diimbas dari 1998 hingga 2010. Alat PII standard menunjukkan sifar pengesanan. Format imej tidak kelihatan.
Lima belas bekas klien telah mengemukakan permintaan pemadaman dalam 12 bulan sebelumnya. Firma itu berkata: "Kami tidak dapat mengesahkan rekod anda telah dipadamkan." Jawapan itu tidak memenuhi Artikel 17 GDPR.
Apa yang firma lakukan:
- Menjalankan OCR dan pengesanan PII pada semua 80,000 fail dalam kelompok 5,000
- Pemprosesan mengambil masa kira-kira tiga minggu
- Hasil: 80,000 ekstrak teks yang dianonimisasi dengan laporan setiap fail
- Membina indeks boleh-cari yang menghubungkan entiti kepada ID fail
Selepas pemprosesan:
- Mencari fail untuk satu subjek: purata 4 minit
- Fail setiap permintaan: purata 6–8
- Masa redaksi setiap permintaan: 20–30 minit
Semua 15 permintaan yang tertunggak diselesaikan dalam 30 hari.
Perkara utama: kewajipan pematuhan wujud sebelum pemprosesan. Firma itu hanya kekurangan alat untuk memenuhinya. Pemprosesan berasaskan OCR tidak mencipta kewajipan baharu. Ia menjadikan kewajipan sedia ada mungkin untuk dipenuhi.
Had OCR dan Tahap Kualiti
Tulisan tangan mempunyai ketepatan OCR yang lebih rendah. Tetapkan ambang keyakinan yang lebih rendah sebelum memproses kandungan tulisan tangan.
Kualiti imbasan yang rendah mengurangkan skor. Peningkatan kontras dan de-skewing membantu sebelum OCR dijalankan.
Susun atur yang luar biasa — halaman berbilang lajur, fon undang-undang lama — juga mungkin mendapat skor lebih rendah.
Tetapkan tahap kualiti untuk kerja pematuhan:
- Melebihi 95% ketepatan halaman: jalankan pemprosesan automatik
- 80–95%: jalankan pemprosesan automatik, kemudian semakan manusia untuk entiti yang ditandai
- Di bawah 80%: hantar ke semakan manual
Pendekatan bertingkat memberi pengawal selia jawapan yang jelas tentang cara anda menilai kebolehpercayaan. Kebanyakan alat automatik mengendalikan fail berkeyakinan tinggi. Baris gilir manual mengendalikan selebihnya. Pemprosesan kekal tinggi. Kualiti pematuhan kekal tinggi juga.
Soalan Lazim kami merangkumi soalan biasa tentang pemprosesan berasaskan OCR dan keperluan jejak audit.