GDPR at mga Legacy na Na-scan na File: OCR para sa PII
Na-update para sa 2026
Ang mga GDPR audit ay madalas na natutuklasan ng parehong nakatagong panganib: lumang mga image-based na PDF archive.
Ang mga law firm ay nagtatago ng 20 taon ng na-scan na mga file ng kliyente. Ang mga ospital ay nagpapanatili ng dekada ng mga pasyenteng form. Iniimbak ng mga katawan ng pamahalaan ang mga na-scan na rekord. Ang mga bangko ay may mga imahed na loan file.
Isa lang ang pagkakatulad ng mga archive na ito. Ang mga file ay raster image — na-scan na PDF, TIFF, o JPEG. Walang text layer. Hindi mababasa ng mga karaniwang PII tool ang mga ito. Para sa karamihan ng mga anonymization tool, hindi umiiral ang mga file na ito.
Isang karaniwang paniniwala: "Mga image file ang mga ito — hindi nalalapat ang GDPR."
Ang GDPR Article 17(1) ay nagbibigay sa mga tao ng karapatang burahin. Sinasabi ng Recital 26 na inaaalis ng anonymization ang personal na impormasyon mula sa saklaw. Wala sa mga ito ang nagbibigay ng pagbubukod para sa mga format ng imahe. Ang isang law firm na hindi matutupad ang kahilingan ng erasure para sa isang 15-taong-gulang na file ng kliyente ay may compliance gap. Wala itong exemption.
Tingnan ang aming compliance overview at mga kasanayan sa seguridad para sa kung paano namin sinusuportahan ang GDPR.
Paano Gumagana ang Detection Pipeline
Ang proseso ay tumatakbo sa tatlong yugto.
Yugto 1 — OCR
Binabasa ng OCR engine ang imahe at kinukuha ang teksto. Itinatala nito ang posisyon ng bawat salita. Ang output ay machine-readable na teksto na may mga coordinate. Bumababa ang katumpakan kapag may sulat-kamay, maputlang tinta, o lumang uri ng letra.
Yugto 2 — NLP Entity Detection
Nine-scan ng Named Entity Recognition (NER) ang OCR text. Natutuklasan nito ang mga pangalan ng tao, organisasyon, at lokasyon. Ang pattern matching ay nagdadagdag ng mga SSN, numero ng telepono, at numero ng account. Ang bawat hit ay nakakakuha ng confidence score.
Yugto 3 — Anonymization
Ang mga natukoy na entity ay pinapalitan sa text output. Hindi binabago ang orihinal na imahe. Ang pagbabago ng imahe ay nangangailangan ng hiwalay na redaction tooling. Sinusuportahan ng anonymized na teksto ang mga kahilingan sa erasure, mga tugon ng DSAR, at mga rekord ng compliance.
Ang mga modernong OCR engine ay umaabot ng 98–99% na katumpakan ng karakter sa malinis na mga naka-print na pahina. Ang sulat-kamay o mga degraded na scan ay bumababa sa 85–92%. Ang katumpakan sa antas ng entity ay karaniwang mas mataas kaysa sa katumpakan sa antas ng karakter. Maaaring matukoy ang isang pangalan kahit may ilang maling letra.
Ang praktikal na resulta: nakakaapekto ang katumpakan ng OCR sa kung ilang entity ang mahuhuli. Hindi nito tinutukoy kung gumagana ang pamamaraan. Kahit sa 90% na katumpakan, mahahanap mo ang karamihan ng mga pangalan at numero. Kailangan pa rin ang mga quality tier. Ang mismong pamamaraan ay matunog.
Pagpoproseso ng Malaking Archive
Ang malalaking legacy archive ay sumusunod sa isang apat na yugto na workflow.
Yugto 1 — Inventory: Ilista ang lahat ng image-based na archive. Tandaan ang source system at petsa ng saklaw. Unahin ang mga rekord na may mataas na panganib ng erasure. Ang mga file na nakaharap sa kliyente ay nauuna sa mga panloob.
Yugto 2 — Batch processing: Patakbuhin ang OCR at PII detection sa mga batch. Lima hanggang sampung libong file bawat batch ay isang karaniwang laki. Tumatakbo ang pagpoproseso sa magdamag. Ang output ay isang PII report at isang anonymized na text extract para sa bawat file.
Yugto 3 — Erasure fulfillment: Nagpapadala ang subject ng kahilingan na may kanilang pangalan at panahon. Hanapin ang mga token ng sub-o sa mga anonymized na extract. Hanapin ang mga file. I-redact ang mga ito. I-log ang aksyon.
Yugto 4 — Patuloy na compliance: Ilagay ang mga bagong na-scan na file sa parehong pipeline bago mo i-archive ang mga ito. Panatilihin ang mga PII report bilang ebidensya ng Article 30 Records of Processing Activities.
Case Study: Law Firm Archive
Natuklasan ng isang law firm audit ang 80,000 image-based na PDF na kontrata ng kliyente na na-scan mula 1998 hanggang 2010. Nagpakita ng zero na detection ang mga karaniwang PII tool. Hindi nakikita ang format ng imahe.
Labinlimang dating kliyente ang nagsumite ng mga kahilingan sa erasure sa nakaraang 12 buwan. Sinabi ng firm: "Hindi namin makumpirma na nabura ang iyong mga rekord." Ang sagot na iyon ay hindi nakakatugon sa GDPR Article 17.
Ginawa ng firm:
- Nagpatakbo ng OCR at PII detection sa lahat ng 80,000 na file sa mga batch ng 5,000
- Humigit-kumulang tatlong linggo ang pagpoproseso
- Resulta: 80,000 anonymized na text extract na may mga per-file na ulat
- Nagtatag ng searchable na index na nag-uugnay ng mga entity sa mga file ID
Pagkatapos ng pagpoproseso:
- Paghahanap ng mga file para sa isang subject: 4 minuto sa average
- Mga file bawat kahilingan: 6–8 sa average
- Oras ng redaction bawat kahilingan: 20–30 minuto
Nalutas ang lahat ng 15 natitirang kahilingan sa loob ng 30 araw.
Ang pangunahing punto: umiiral ang obligasyon sa compliance bago ang pagpoproseso. Kulang lang ang firm sa mga tool para matupad ito. Ang OCR-based na pagpoproseso ay hindi lumikha ng bagong tungkulin. Ginawa nitong posible ang pagtupad sa isang umiiral nang tungkulin.
Mga Limitasyon ng OCR at mga Quality Tier
Ang sulat-kamay ay may mas mababang katumpakan ng OCR. Magtakda ng mas mababang threshold ng kumpiyansa bago iproseso ang handwritten na nilalaman.
Ang mahinang kalidad ng scan ay nagbabawas ng mga marka. Tinutulungan ng contrast enhancement at de-skewing bago tumakbo ang OCR.
Ang mga kakaibang layout — mga pahina na may maraming haligi, lumang legal na typeface — ay maaari ring mas mababang marka.
Magtakda ng mga quality tier para sa gawain ng compliance:
- Higit sa 95% na katumpakan ng pahina: patakbuhin ang automated na pagpoproseso
- 80–95%: patakbuhin ang automated na pagpoproseso, pagkatapos ay human review para sa mga flag na entity
- Mas mababa sa 80%: ipadala sa manual na review
Ang tiered na diskarte ay nagbibigay sa mga regulator ng malinaw na sagot tungkol sa kung paano mo sinuri ang pagiging maaasahan. Pinangangalagaan ng karamihan ng mga automated na tool ang mga file na may mataas na kumpiyansa. Ang isang manual na pila ang humahawak sa natitirang bahagi. Mataas ang throughput. Mataas din ang kalidad ng compliance.
Saklaw ng aming FAQ ang mga karaniwang tanong tungkol sa OCR-based na pagpoproseso at mga kinakailangan sa audit trail.