By · Last updated 2026-06-05

Atpakaļ uz BloguGDPR un Atbilstība

GDPR mantotie skenētie dokumenti: OCR un PII

GDPR tiesības uz dzēšanu attiecas uz personas datiem "neatkarīgi no formāta". Attēlbāzēti PDF faili no papīra arhīviem nav izņēmums.

June 5, 20267 min lasīšanai
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR un mantotie skenētie faili: OCR personas datu aizsardzībai

Atjaunināts 2026. gadam

GDPR auditi bieži atklāj to pašu slēpto risku: vecus attēlbāzētus PDF arhīvus.

Juridiskās firmas glabā 20 gadu skenētas klientu lietas. Slimnīcas uztur gadu desmitu pacientu veidlapas. Valdības iestādes glabā skenētus ierakstus. Bankas uztur digitalizētas aizdevumu lietas.

Šiem arhīviem ir viena kopīga iezīme. Faili ir rastra attēli — skenēti PDF, TIFF vai JPEG formātā. Tajiem nav teksta slāņa. Standarta PII rīki tos nevar nolasīt. Vairumam anonimizācijas rīku šie faili vienkārši nepastāv.

Izplatīts uzskats: "Tie ir attēlu faili — GDPR uz tiem neattiecas."

GDPR 17. panta 1. punkts piešķir cilvēkiem tiesības uz dzēšanu. 26. apsvērums norāda, ka anonimizācija izslēdz personas informāciju no darbības jomas. Neviens no tiem neparedz izņēmumu attēlu formātiem. Juridiskajai firmai, kas nevar izpildīt dzēšanas pieprasījumu par 15 gadus vecu klienta lietu, ir atbilstības trūkums. Tai nav izņēmuma.

Skatiet mūsu atbilstības pārskatu un drošības praksi, lai uzzinātu, kā mēs atbalstām GDPR.

Kā darbojas noteikšanas cauruļvads

Process darbojas trīs posmos.

1. posms — OCR

OCR dzinējs nolasa attēlu un iegūst tekstu. Tas reģistrē katras vārda atrašanās vietu. Izvade ir mašīnlasāms teksts ar koordinātām. Precizitāte samazinās, ja ir rokraksts, izbalējusi tinte vai veci burtu veidi.

2. posms — NLP entītiju noteikšana

Nosaukto entītiju atpazīšana (NER) skenē OCR tekstu. Tā atrod personu vārdus, organizācijas un atrašanās vietas. Paraugu saskaņošana pievieno sociālās apdrošināšanas numurus, tālruņu numurus un konta numurus. Katrai atrastajai vienībai tiek piešķirts ticamības rādītājs.

3. posms — Anonimizācija

Atklātās entītijas tiek aizstātas teksta izvadē. Oriģinālais attēls netiek mainīts. Attēla maiņai nepieciešami atsevišķi rediģēšanas rīki. Anonimizētais teksts atbalsta dzēšanas pieprasījumus, DSAR atbildes un atbilstības ierakstus.

Mūsdienu OCR dzinēji sasniedz 98–99% rakstzīmju precizitāti tīrās drukātās lapās. Rokraksts vai pasliktinātas skenēšanas samazina to līdz 85–92%. Entītiju līmeņa precizitāte parasti ir augstāka nekā rakstzīmju līmeņa precizitāte. Vārdu var identificēt pat tad, ja dažas burtas ir nepareizas.

Praktiskā secinājums: OCR precizitāte ietekmē to, cik entītiju jūs atrodat. Tā nenosaka, vai metode darbojas. Pat pie 90% precizitātes jūs atrodat lielāko daļu vārdu un skaitļu. Kvalitātes pakāpes joprojām ir nepieciešamas. Pati metode ir pamatota.

Liela arhīva apstrāde

Lieli mantotie arhīvi seko četrfāžu darbplūsmai.

1. fāze — Inventarizācija: Uzskaitiet visus attēlbāzētus arhīvus. Atzīmējiet avota sistēmu un datumu diapazonu. Vispirms ievietojiet augsta dzēšanas riska ierakstus. Klientiem paredzētie faili ir pirms iekšējiem.

2. fāze — Paketes apstrāde: Palaidiet OCR un PII noteikšanu partijās. Pieci līdz desmit tūkstoši failu vienā partijā ir izplatīts izmērs. Apstrāde notiek pa nakti. Izvade ir PII ziņojums un anonimizēts teksta izraksts katram failam.

3. fāze — Dzēšanas izpilde: Subjekts nosūta pieprasījumu ar savu vārdu un periodu. Meklējiet viņu marķierus anonimizētajos izrakstus. Atrodiet failus. Rediģējiet tos. Reģistrējiet darbību.

4. fāze — Pastāvīga atbilstība: Laidiet jaunus skenētus failus caur to pašu cauruļvadu pirms to arhivēšanas. Saglabājiet PII ziņojumus kā 30. panta apstrādes darbību pierādījumus.

Gadījuma izpēte: Juridiskās firmas arhīvs

Juridiskās firmas audits atklāja 80 000 attēlbāzētus PDF klientu līgumus, kas skenēti no 1998. līdz 2010. gadam. Standarta PII rīki uzrādīja nulli atklājumu. Attēlu formāts bija neredzams.

Piecpadsmit bijušie klienti bija iesnieguši dzēšanas pieprasījumus iepriekšējo 12 mēnešu laikā. Firma teica: "Mēs nevaram apstiprināt, ka jūsu ieraksti ir dzēsti." Šī atbilde neatbilst GDPR 17. pantam.

Ko firma darīja:

  • Palaida OCR un PII noteikšanu visiem 80 000 failiem partijās pa 5 000
  • Apstrāde aizņēma apmēram trīs nedēļas
  • Rezultāts: 80 000 anonimizētu teksta izrakstu ar failu ziņojumiem
  • Izveidoja meklējamu indeksu, kas saista entītijas ar failu ID

Pēc apstrādes:

  • Failu atrašana vienam subjektam: vidēji 4 minūtes
  • Faili vienam pieprasījumam: vidēji 6–8
  • Rediģēšanas laiks vienam pieprasījumam: 20–30 minūtes

Visi 15 neizpildītie pieprasījumi tika atrisināti 30 dienu laikā.

Galvenais punkts: atbilstības pienākums pastāvēja pirms apstrādes. Firmai vienkārši trūka rīku, lai to izpildītu. OCR bāzēta apstrāde neradīja jaunu pienākumu. Tā padarīja esošo pienākumu izpildāmu.

OCR ierobežojumi un kvalitātes pakāpes

Rokrakstam ir zemāka OCR precizitāte. Iestatiet zemāku ticamības slieksni pirms rokraksta satura apstrādes.

Slikta skenēšanas kvalitāte samazina rādītājus. Kontrasta uzlabošana un sašķiebuma novēršana palīdz pirms OCR darbības.

Neparasti izkārtojumi — vairāku kolonnu lapas, veci juridiskā burtu veidi — var arī iegūt zemākus rādītājus.

Iestatiet kvalitātes pakāpes atbilstības darbam:

  • Virs 95% lapas precizitātes: palaidiet automatizētu apstrādi
  • 80–95%: palaidiet automatizētu apstrādi, pēc tam cilvēka pārskats atzīmētajām entītijām
  • Zem 80%: nosūtiet uz manuālu pārskatu

Pakāpju pieeja sniedz regulatoriem skaidru atbildi par to, kā jūs novērtējāt uzticamību. Lielākā daļa automatizēto rīku apstrādā augstas ticamības failus. Manuāla rinda apstrādā pārējos. Caurlaidspēja paliek augsta. Atbilstības kvalitāte arī paliek augsta.

Mūsu BUJ aptver izplatītus jautājumus par OCR bāzētu apstrādi un audita pierādījumu prasībām.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.