By · Last updated 2026-06-05

Til baka á BloggGDPR & Samræmi

GDPR og gömul skannuð skjöl: OCR + PII

Réttur einstaklinga til eyðingar samkvæmt GDPR á við um persónuupplýsingar 'óháð sniði.' Myndbundnar PDF-skrár úr pappírsskjalasöfnum eru ekki undanþegnar.

June 5, 20267 mín lestur
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR og gömul skannuð skjöl: OCR fyrir PII

Uppfært fyrir 2026

GDPR-úttektir leiða oft í ljós sömu falin áhættu: gamlar myndbundnar PDF-skjalasöfn.

Lögfræðistofur geyma 20 ára skannuð skjöl viðskiptavina. Sjúkrahús varðveita áratuga sjúklingagögn. Ríkisstofnanir geyma skannuðar skrár. Bankar hafa myndaðar lánaskrár.

Þessar skjalasöfn deila einni eiginlegu. Skrárnar eru rasterímyndir — skannuð PDF, TIFF eða JPEG. Það er enginn textalagl. Staðlaðar PII-verkfæri geta ekki lesið þær. Fyrir flestu nafnagreiningartækjum eru þessar skrár ekki til.

Algeng trú: "Þetta eru myndaskrár — GDPR á ekki við."

GDPR-grein 17(1) gefur einstaklingum rétt til eyðingar. Aðfararorð 26 segir að nafnleysi fjarlægi persónuupplýsingar úr gildissviði. Hvorugt útiloka myndasnið. Lögfræðistofa sem getur ekki uppfyllt beiðni um eyðingu 15 ára gamalla skjala viðskiptavinar á í samræmisgalli. Hún nýtur ekki undanþágu.

Sjá samræmisyfirlit og öryggisframkvæmd fyrir hvernig við stuðlum að GDPR.

Hvernig greiningarleiðslurnar virka

Ferlið fer í þremur stigum.

Stig 1 — OCR

OCR-vélin les myndina og dregur út texta. Hún skráir staðsetningu hvers orðs. Úttakið er vélalesanlegur texti með hnitum. Nákvæmni minnkar þegar handrit, þverrt blek eða gamlar leturgerðir eru til staðar.

Stig 2 — NLP einingagreining

Named Entity Recognition (NER) skannar OCR-textann. Hann finnur nöfn einstaklinga, stofnana og staða. Mynsturgreining bætir við kennitölur, símanúmer og reikningsnúmer. Hvert tilvikið fær áreiðanleikaeinkunn.

Stig 3 — Nafnleysi

Greindar einingar eru skipt út í textaúttak. Upprunalega myndin er ekki breytt. Að breyta myndinni krefst sérstakra þekkingarverkfæra. Nafnlægi textinn styður beiðnir um eyðingu, DSAR-svör og samræmisskrár.

Nútíma OCR-vélar ná 98–99% stafatáknánkvæmni á hreinum prentuðum síðum. Handrit eða skemmdar skannanir lækka í 85–92%. Nákvæmni á einingstigi er oft hærri en á stafatáknaástigsstigi. Nafn er hægt að þekkja jafnvel þótt nokkrir stafir séu rangir.

Hagnýtt niðurstaðan: OCR-nákvæmni hefur áhrif á hversu margar einingar þú finnur. Hún ákveður ekki hvort aðferðin virki. Jafnvel við 90% nákvæmni finnurðu flest nöfn og númer. Gæðastig eru enn nauðsynleg. Aðferðin sjálf er traust.

Vinnsla stórra skjalasafna

Stór arfgeng skjalasöfn fylgja fjögurra fasa verkflæði.

Fasi 1 — Skráning: Skráðu allar myndbundnar skjalasöfn. Athugaðu upprunakerfi og dagsetningarsvið. Settu skrár með háa eyðingaáhættu í forgang. Viðskiptavinasnæðar skrár koma á undan innri.

Fasi 2 — Runuvinnsla: Keyrðu OCR og PII-greiningu í runum. Fimm til tíu þúsund skrár í hverri runu er algeng stærð. Vinnsla keyrir yfir nótt. Úttakið er PII-skýrsla og nafnlægi textadráttur fyrir hverja skrá.

Fasi 3 — Uppfylling eyðingarbeiðna: Viðkomandi sendir beiðni með nafni og tímasviði. Leitaðu í nafnlægu dráttinum að táknum þeirra. Finndu skrárnar. Þektu þær yfir. Skráðu aðgerðina.

Fasi 4 — Löngum samræmi: Settu nýjar skannuðar skrár í gegnum sömu leiðsluna áður en þær eru skjalasafnaðar. Haltu PII-skýrslum sem gögn um vinnslustarfsemi samkvæmt grein 30.

Dæmisaga: Lögfræðistofuskjalasafn

Úttekt hjá lögfræðistofu fann 80.000 myndbundnar PDF-skrár viðskiptavinasamnings, skannaðar frá 1998 til 2010. Staðlaðar PII-verkfæri sýndu núll niðurstöður. Myndasniðið var ósýnilegt.

Fimmtán fyrrverandi viðskiptavinir höfðu sent beiðnir um eyðingu á undangengnum 12 mánuðum. Stofan sagði: "Við getum ekki staðfest að skrár þínar hafi verið þurrkaðar út." Sú svar uppfyllir ekki GDPR-grein 17.

Hvað stofan gerði:

  • Keyrði OCR og PII-greiningu á öllum 80.000 skrám í runum upp á 5.000
  • Vinnsla tók um þrjár vikur
  • Niðurstaða: 80.000 nafnlæg textadráttir með skýrslum á hverja skrá
  • Byggði leitanlegan vísitölu sem tengir einingar við skráar-ID

Eftir vinnslu:

  • Að finna skrár fyrir einn einstakling: 4 mínútur að meðaltali
  • Skrár á hverja beiðni: 6–8 að meðaltali
  • Þekingartími á hverja beiðni: 20–30 mínútur

Allar 15 útistandandi beiðnir voru leysdar innan 30 daga.

Lykillinn: samræmisskyldurnar voru til áður en vinnslan fór fram. Stofan skorti bara verkfærin til að uppfylla þær. OCR-vinnsla skapaði ekki nýja skyldu. Hún gerði núverandi skyldu mögulega að uppfylla.

OCR-takmarkanir og gæðastig

Handrit hefur lægri OCR-nákvæmni. Stilltu lægra áreiðanleikamörk áður en handritaefni er unnið.

Léleg skanngæði lækkar einkunn. Kontraststyrkur og hallaleiðrétting hjálpa áður en OCR keyrir.

Óvenjulegar útlitsuppsetninga — margar dálkar, gamlar lagalegar leturgerðir — geta einnig gefið lægri einkunn.

Stilltu gæðastig fyrir samræmisstarf:

  • Yfir 95% síðuáræðanleiki: keyra sjálfvirka vinnslu
  • 80–95%: keyra sjálfvirka vinnslu, síðan mannleg yfirferð á merktu einingum
  • Undir 80%: senda í handvirka yfirferð

Flögusett nálgun gefur eftirlitsaðilum skýrt svar um hvernig þú metur áreiðanleika. Flestar sjálfvirkar verkfæri sjá um skrár með mikinn áreiðanleika. Handleg biðröð sér um restina. Afköst halda sér há. Samræmisgæði halda sér há einnig.

Spurðu algengustu spurninganna um OCR-vinnslu og endurskoðunarslóðarkröfur.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.