GDPR og gömul skannuð skjöl: OCR fyrir PII
Uppfært fyrir 2026
GDPR-úttektir leiða oft í ljós sömu falin áhættu: gamlar myndbundnar PDF-skjalasöfn.
Lögfræðistofur geyma 20 ára skannuð skjöl viðskiptavina. Sjúkrahús varðveita áratuga sjúklingagögn. Ríkisstofnanir geyma skannuðar skrár. Bankar hafa myndaðar lánaskrár.
Þessar skjalasöfn deila einni eiginlegu. Skrárnar eru rasterímyndir — skannuð PDF, TIFF eða JPEG. Það er enginn textalagl. Staðlaðar PII-verkfæri geta ekki lesið þær. Fyrir flestu nafnagreiningartækjum eru þessar skrár ekki til.
Algeng trú: "Þetta eru myndaskrár — GDPR á ekki við."
GDPR-grein 17(1) gefur einstaklingum rétt til eyðingar. Aðfararorð 26 segir að nafnleysi fjarlægi persónuupplýsingar úr gildissviði. Hvorugt útiloka myndasnið. Lögfræðistofa sem getur ekki uppfyllt beiðni um eyðingu 15 ára gamalla skjala viðskiptavinar á í samræmisgalli. Hún nýtur ekki undanþágu.
Sjá samræmisyfirlit og öryggisframkvæmd fyrir hvernig við stuðlum að GDPR.
Hvernig greiningarleiðslurnar virka
Ferlið fer í þremur stigum.
Stig 1 — OCR
OCR-vélin les myndina og dregur út texta. Hún skráir staðsetningu hvers orðs. Úttakið er vélalesanlegur texti með hnitum. Nákvæmni minnkar þegar handrit, þverrt blek eða gamlar leturgerðir eru til staðar.
Stig 2 — NLP einingagreining
Named Entity Recognition (NER) skannar OCR-textann. Hann finnur nöfn einstaklinga, stofnana og staða. Mynsturgreining bætir við kennitölur, símanúmer og reikningsnúmer. Hvert tilvikið fær áreiðanleikaeinkunn.
Stig 3 — Nafnleysi
Greindar einingar eru skipt út í textaúttak. Upprunalega myndin er ekki breytt. Að breyta myndinni krefst sérstakra þekkingarverkfæra. Nafnlægi textinn styður beiðnir um eyðingu, DSAR-svör og samræmisskrár.
Nútíma OCR-vélar ná 98–99% stafatáknánkvæmni á hreinum prentuðum síðum. Handrit eða skemmdar skannanir lækka í 85–92%. Nákvæmni á einingstigi er oft hærri en á stafatáknaástigsstigi. Nafn er hægt að þekkja jafnvel þótt nokkrir stafir séu rangir.
Hagnýtt niðurstaðan: OCR-nákvæmni hefur áhrif á hversu margar einingar þú finnur. Hún ákveður ekki hvort aðferðin virki. Jafnvel við 90% nákvæmni finnurðu flest nöfn og númer. Gæðastig eru enn nauðsynleg. Aðferðin sjálf er traust.
Vinnsla stórra skjalasafna
Stór arfgeng skjalasöfn fylgja fjögurra fasa verkflæði.
Fasi 1 — Skráning: Skráðu allar myndbundnar skjalasöfn. Athugaðu upprunakerfi og dagsetningarsvið. Settu skrár með háa eyðingaáhættu í forgang. Viðskiptavinasnæðar skrár koma á undan innri.
Fasi 2 — Runuvinnsla: Keyrðu OCR og PII-greiningu í runum. Fimm til tíu þúsund skrár í hverri runu er algeng stærð. Vinnsla keyrir yfir nótt. Úttakið er PII-skýrsla og nafnlægi textadráttur fyrir hverja skrá.
Fasi 3 — Uppfylling eyðingarbeiðna: Viðkomandi sendir beiðni með nafni og tímasviði. Leitaðu í nafnlægu dráttinum að táknum þeirra. Finndu skrárnar. Þektu þær yfir. Skráðu aðgerðina.
Fasi 4 — Löngum samræmi: Settu nýjar skannuðar skrár í gegnum sömu leiðsluna áður en þær eru skjalasafnaðar. Haltu PII-skýrslum sem gögn um vinnslustarfsemi samkvæmt grein 30.
Dæmisaga: Lögfræðistofuskjalasafn
Úttekt hjá lögfræðistofu fann 80.000 myndbundnar PDF-skrár viðskiptavinasamnings, skannaðar frá 1998 til 2010. Staðlaðar PII-verkfæri sýndu núll niðurstöður. Myndasniðið var ósýnilegt.
Fimmtán fyrrverandi viðskiptavinir höfðu sent beiðnir um eyðingu á undangengnum 12 mánuðum. Stofan sagði: "Við getum ekki staðfest að skrár þínar hafi verið þurrkaðar út." Sú svar uppfyllir ekki GDPR-grein 17.
Hvað stofan gerði:
- Keyrði OCR og PII-greiningu á öllum 80.000 skrám í runum upp á 5.000
- Vinnsla tók um þrjár vikur
- Niðurstaða: 80.000 nafnlæg textadráttir með skýrslum á hverja skrá
- Byggði leitanlegan vísitölu sem tengir einingar við skráar-ID
Eftir vinnslu:
- Að finna skrár fyrir einn einstakling: 4 mínútur að meðaltali
- Skrár á hverja beiðni: 6–8 að meðaltali
- Þekingartími á hverja beiðni: 20–30 mínútur
Allar 15 útistandandi beiðnir voru leysdar innan 30 daga.
Lykillinn: samræmisskyldurnar voru til áður en vinnslan fór fram. Stofan skorti bara verkfærin til að uppfylla þær. OCR-vinnsla skapaði ekki nýja skyldu. Hún gerði núverandi skyldu mögulega að uppfylla.
OCR-takmarkanir og gæðastig
Handrit hefur lægri OCR-nákvæmni. Stilltu lægra áreiðanleikamörk áður en handritaefni er unnið.
Léleg skanngæði lækkar einkunn. Kontraststyrkur og hallaleiðrétting hjálpa áður en OCR keyrir.
Óvenjulegar útlitsuppsetninga — margar dálkar, gamlar lagalegar leturgerðir — geta einnig gefið lægri einkunn.
Stilltu gæðastig fyrir samræmisstarf:
- Yfir 95% síðuáræðanleiki: keyra sjálfvirka vinnslu
- 80–95%: keyra sjálfvirka vinnslu, síðan mannleg yfirferð á merktu einingum
- Undir 80%: senda í handvirka yfirferð
Flögusett nálgun gefur eftirlitsaðilum skýrt svar um hvernig þú metur áreiðanleika. Flestar sjálfvirkar verkfæri sjá um skrár með mikinn áreiðanleika. Handleg biðröð sér um restina. Afköst halda sér há. Samræmisgæði halda sér há einnig.
Spurðu algengustu spurninganna um OCR-vinnslu og endurskoðunarslóðarkröfur.