By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

GDPR at mga Legacy na Na-scan na Dokumento: OCR + PII

Ang karapatang burahin ng GDPR ay nalalapat sa personal na datos 'anuman ang format.' Hindi exempt ang mga image-based na PDF mula sa mga paper archive.

June 5, 20267 min basahin
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR at mga Legacy na Na-scan na File: OCR para sa PII

Na-update para sa 2026

Ang mga GDPR audit ay madalas na natutuklasan ng parehong nakatagong panganib: lumang mga image-based na PDF archive.

Ang mga law firm ay nagtatago ng 20 taon ng na-scan na mga file ng kliyente. Ang mga ospital ay nagpapanatili ng dekada ng mga pasyenteng form. Iniimbak ng mga katawan ng pamahalaan ang mga na-scan na rekord. Ang mga bangko ay may mga imahed na loan file.

Isa lang ang pagkakatulad ng mga archive na ito. Ang mga file ay raster image — na-scan na PDF, TIFF, o JPEG. Walang text layer. Hindi mababasa ng mga karaniwang PII tool ang mga ito. Para sa karamihan ng mga anonymization tool, hindi umiiral ang mga file na ito.

Isang karaniwang paniniwala: "Mga image file ang mga ito — hindi nalalapat ang GDPR."

Ang GDPR Article 17(1) ay nagbibigay sa mga tao ng karapatang burahin. Sinasabi ng Recital 26 na inaaalis ng anonymization ang personal na impormasyon mula sa saklaw. Wala sa mga ito ang nagbibigay ng pagbubukod para sa mga format ng imahe. Ang isang law firm na hindi matutupad ang kahilingan ng erasure para sa isang 15-taong-gulang na file ng kliyente ay may compliance gap. Wala itong exemption.

Tingnan ang aming compliance overview at mga kasanayan sa seguridad para sa kung paano namin sinusuportahan ang GDPR.

Paano Gumagana ang Detection Pipeline

Ang proseso ay tumatakbo sa tatlong yugto.

Yugto 1 — OCR

Binabasa ng OCR engine ang imahe at kinukuha ang teksto. Itinatala nito ang posisyon ng bawat salita. Ang output ay machine-readable na teksto na may mga coordinate. Bumababa ang katumpakan kapag may sulat-kamay, maputlang tinta, o lumang uri ng letra.

Yugto 2 — NLP Entity Detection

Nine-scan ng Named Entity Recognition (NER) ang OCR text. Natutuklasan nito ang mga pangalan ng tao, organisasyon, at lokasyon. Ang pattern matching ay nagdadagdag ng mga SSN, numero ng telepono, at numero ng account. Ang bawat hit ay nakakakuha ng confidence score.

Yugto 3 — Anonymization

Ang mga natukoy na entity ay pinapalitan sa text output. Hindi binabago ang orihinal na imahe. Ang pagbabago ng imahe ay nangangailangan ng hiwalay na redaction tooling. Sinusuportahan ng anonymized na teksto ang mga kahilingan sa erasure, mga tugon ng DSAR, at mga rekord ng compliance.

Ang mga modernong OCR engine ay umaabot ng 98–99% na katumpakan ng karakter sa malinis na mga naka-print na pahina. Ang sulat-kamay o mga degraded na scan ay bumababa sa 85–92%. Ang katumpakan sa antas ng entity ay karaniwang mas mataas kaysa sa katumpakan sa antas ng karakter. Maaaring matukoy ang isang pangalan kahit may ilang maling letra.

Ang praktikal na resulta: nakakaapekto ang katumpakan ng OCR sa kung ilang entity ang mahuhuli. Hindi nito tinutukoy kung gumagana ang pamamaraan. Kahit sa 90% na katumpakan, mahahanap mo ang karamihan ng mga pangalan at numero. Kailangan pa rin ang mga quality tier. Ang mismong pamamaraan ay matunog.

Pagpoproseso ng Malaking Archive

Ang malalaking legacy archive ay sumusunod sa isang apat na yugto na workflow.

Yugto 1 — Inventory: Ilista ang lahat ng image-based na archive. Tandaan ang source system at petsa ng saklaw. Unahin ang mga rekord na may mataas na panganib ng erasure. Ang mga file na nakaharap sa kliyente ay nauuna sa mga panloob.

Yugto 2 — Batch processing: Patakbuhin ang OCR at PII detection sa mga batch. Lima hanggang sampung libong file bawat batch ay isang karaniwang laki. Tumatakbo ang pagpoproseso sa magdamag. Ang output ay isang PII report at isang anonymized na text extract para sa bawat file.

Yugto 3 — Erasure fulfillment: Nagpapadala ang subject ng kahilingan na may kanilang pangalan at panahon. Hanapin ang mga token ng sub-o sa mga anonymized na extract. Hanapin ang mga file. I-redact ang mga ito. I-log ang aksyon.

Yugto 4 — Patuloy na compliance: Ilagay ang mga bagong na-scan na file sa parehong pipeline bago mo i-archive ang mga ito. Panatilihin ang mga PII report bilang ebidensya ng Article 30 Records of Processing Activities.

Case Study: Law Firm Archive

Natuklasan ng isang law firm audit ang 80,000 image-based na PDF na kontrata ng kliyente na na-scan mula 1998 hanggang 2010. Nagpakita ng zero na detection ang mga karaniwang PII tool. Hindi nakikita ang format ng imahe.

Labinlimang dating kliyente ang nagsumite ng mga kahilingan sa erasure sa nakaraang 12 buwan. Sinabi ng firm: "Hindi namin makumpirma na nabura ang iyong mga rekord." Ang sagot na iyon ay hindi nakakatugon sa GDPR Article 17.

Ginawa ng firm:

  • Nagpatakbo ng OCR at PII detection sa lahat ng 80,000 na file sa mga batch ng 5,000
  • Humigit-kumulang tatlong linggo ang pagpoproseso
  • Resulta: 80,000 anonymized na text extract na may mga per-file na ulat
  • Nagtatag ng searchable na index na nag-uugnay ng mga entity sa mga file ID

Pagkatapos ng pagpoproseso:

  • Paghahanap ng mga file para sa isang subject: 4 minuto sa average
  • Mga file bawat kahilingan: 6–8 sa average
  • Oras ng redaction bawat kahilingan: 20–30 minuto

Nalutas ang lahat ng 15 natitirang kahilingan sa loob ng 30 araw.

Ang pangunahing punto: umiiral ang obligasyon sa compliance bago ang pagpoproseso. Kulang lang ang firm sa mga tool para matupad ito. Ang OCR-based na pagpoproseso ay hindi lumikha ng bagong tungkulin. Ginawa nitong posible ang pagtupad sa isang umiiral nang tungkulin.

Mga Limitasyon ng OCR at mga Quality Tier

Ang sulat-kamay ay may mas mababang katumpakan ng OCR. Magtakda ng mas mababang threshold ng kumpiyansa bago iproseso ang handwritten na nilalaman.

Ang mahinang kalidad ng scan ay nagbabawas ng mga marka. Tinutulungan ng contrast enhancement at de-skewing bago tumakbo ang OCR.

Ang mga kakaibang layout — mga pahina na may maraming haligi, lumang legal na typeface — ay maaari ring mas mababang marka.

Magtakda ng mga quality tier para sa gawain ng compliance:

  • Higit sa 95% na katumpakan ng pahina: patakbuhin ang automated na pagpoproseso
  • 80–95%: patakbuhin ang automated na pagpoproseso, pagkatapos ay human review para sa mga flag na entity
  • Mas mababa sa 80%: ipadala sa manual na review

Ang tiered na diskarte ay nagbibigay sa mga regulator ng malinaw na sagot tungkol sa kung paano mo sinuri ang pagiging maaasahan. Pinangangalagaan ng karamihan ng mga automated na tool ang mga file na may mataas na kumpiyansa. Ang isang manual na pila ang humahawak sa natitirang bahagi. Mataas ang throughput. Mataas din ang kalidad ng compliance.

Saklaw ng aming FAQ ang mga karaniwang tanong tungkol sa OCR-based na pagpoproseso at mga kinakailangan sa audit trail.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.