GDPR un mantotie skenētie faili: OCR personas datu aizsardzībai
Atjaunināts 2026. gadam
GDPR auditi bieži atklāj to pašu slēpto risku: vecus attēlbāzētus PDF arhīvus.
Juridiskās firmas glabā 20 gadu skenētas klientu lietas. Slimnīcas uztur gadu desmitu pacientu veidlapas. Valdības iestādes glabā skenētus ierakstus. Bankas uztur digitalizētas aizdevumu lietas.
Šiem arhīviem ir viena kopīga iezīme. Faili ir rastra attēli — skenēti PDF, TIFF vai JPEG formātā. Tajiem nav teksta slāņa. Standarta PII rīki tos nevar nolasīt. Vairumam anonimizācijas rīku šie faili vienkārši nepastāv.
Izplatīts uzskats: "Tie ir attēlu faili — GDPR uz tiem neattiecas."
GDPR 17. panta 1. punkts piešķir cilvēkiem tiesības uz dzēšanu. 26. apsvērums norāda, ka anonimizācija izslēdz personas informāciju no darbības jomas. Neviens no tiem neparedz izņēmumu attēlu formātiem. Juridiskajai firmai, kas nevar izpildīt dzēšanas pieprasījumu par 15 gadus vecu klienta lietu, ir atbilstības trūkums. Tai nav izņēmuma.
Skatiet mūsu atbilstības pārskatu un drošības praksi, lai uzzinātu, kā mēs atbalstām GDPR.
Kā darbojas noteikšanas cauruļvads
Process darbojas trīs posmos.
1. posms — OCR
OCR dzinējs nolasa attēlu un iegūst tekstu. Tas reģistrē katras vārda atrašanās vietu. Izvade ir mašīnlasāms teksts ar koordinātām. Precizitāte samazinās, ja ir rokraksts, izbalējusi tinte vai veci burtu veidi.
2. posms — NLP entītiju noteikšana
Nosaukto entītiju atpazīšana (NER) skenē OCR tekstu. Tā atrod personu vārdus, organizācijas un atrašanās vietas. Paraugu saskaņošana pievieno sociālās apdrošināšanas numurus, tālruņu numurus un konta numurus. Katrai atrastajai vienībai tiek piešķirts ticamības rādītājs.
3. posms — Anonimizācija
Atklātās entītijas tiek aizstātas teksta izvadē. Oriģinālais attēls netiek mainīts. Attēla maiņai nepieciešami atsevišķi rediģēšanas rīki. Anonimizētais teksts atbalsta dzēšanas pieprasījumus, DSAR atbildes un atbilstības ierakstus.
Mūsdienu OCR dzinēji sasniedz 98–99% rakstzīmju precizitāti tīrās drukātās lapās. Rokraksts vai pasliktinātas skenēšanas samazina to līdz 85–92%. Entītiju līmeņa precizitāte parasti ir augstāka nekā rakstzīmju līmeņa precizitāte. Vārdu var identificēt pat tad, ja dažas burtas ir nepareizas.
Praktiskā secinājums: OCR precizitāte ietekmē to, cik entītiju jūs atrodat. Tā nenosaka, vai metode darbojas. Pat pie 90% precizitātes jūs atrodat lielāko daļu vārdu un skaitļu. Kvalitātes pakāpes joprojām ir nepieciešamas. Pati metode ir pamatota.
Liela arhīva apstrāde
Lieli mantotie arhīvi seko četrfāžu darbplūsmai.
1. fāze — Inventarizācija: Uzskaitiet visus attēlbāzētus arhīvus. Atzīmējiet avota sistēmu un datumu diapazonu. Vispirms ievietojiet augsta dzēšanas riska ierakstus. Klientiem paredzētie faili ir pirms iekšējiem.
2. fāze — Paketes apstrāde: Palaidiet OCR un PII noteikšanu partijās. Pieci līdz desmit tūkstoši failu vienā partijā ir izplatīts izmērs. Apstrāde notiek pa nakti. Izvade ir PII ziņojums un anonimizēts teksta izraksts katram failam.
3. fāze — Dzēšanas izpilde: Subjekts nosūta pieprasījumu ar savu vārdu un periodu. Meklējiet viņu marķierus anonimizētajos izrakstus. Atrodiet failus. Rediģējiet tos. Reģistrējiet darbību.
4. fāze — Pastāvīga atbilstība: Laidiet jaunus skenētus failus caur to pašu cauruļvadu pirms to arhivēšanas. Saglabājiet PII ziņojumus kā 30. panta apstrādes darbību pierādījumus.
Gadījuma izpēte: Juridiskās firmas arhīvs
Juridiskās firmas audits atklāja 80 000 attēlbāzētus PDF klientu līgumus, kas skenēti no 1998. līdz 2010. gadam. Standarta PII rīki uzrādīja nulli atklājumu. Attēlu formāts bija neredzams.
Piecpadsmit bijušie klienti bija iesnieguši dzēšanas pieprasījumus iepriekšējo 12 mēnešu laikā. Firma teica: "Mēs nevaram apstiprināt, ka jūsu ieraksti ir dzēsti." Šī atbilde neatbilst GDPR 17. pantam.
Ko firma darīja:
- Palaida OCR un PII noteikšanu visiem 80 000 failiem partijās pa 5 000
- Apstrāde aizņēma apmēram trīs nedēļas
- Rezultāts: 80 000 anonimizētu teksta izrakstu ar failu ziņojumiem
- Izveidoja meklējamu indeksu, kas saista entītijas ar failu ID
Pēc apstrādes:
- Failu atrašana vienam subjektam: vidēji 4 minūtes
- Faili vienam pieprasījumam: vidēji 6–8
- Rediģēšanas laiks vienam pieprasījumam: 20–30 minūtes
Visi 15 neizpildītie pieprasījumi tika atrisināti 30 dienu laikā.
Galvenais punkts: atbilstības pienākums pastāvēja pirms apstrādes. Firmai vienkārši trūka rīku, lai to izpildītu. OCR bāzēta apstrāde neradīja jaunu pienākumu. Tā padarīja esošo pienākumu izpildāmu.
OCR ierobežojumi un kvalitātes pakāpes
Rokrakstam ir zemāka OCR precizitāte. Iestatiet zemāku ticamības slieksni pirms rokraksta satura apstrādes.
Slikta skenēšanas kvalitāte samazina rādītājus. Kontrasta uzlabošana un sašķiebuma novēršana palīdz pirms OCR darbības.
Neparasti izkārtojumi — vairāku kolonnu lapas, veci juridiskā burtu veidi — var arī iegūt zemākus rādītājus.
Iestatiet kvalitātes pakāpes atbilstības darbam:
- Virs 95% lapas precizitātes: palaidiet automatizētu apstrādi
- 80–95%: palaidiet automatizētu apstrādi, pēc tam cilvēka pārskats atzīmētajām entītijām
- Zem 80%: nosūtiet uz manuālu pārskatu
Pakāpju pieeja sniedz regulatoriem skaidru atbildi par to, kā jūs novērtējāt uzticamību. Lielākā daļa automatizēto rīku apstrādā augstas ticamības failus. Manuāla rinda apstrādā pārējos. Caurlaidspēja paliek augsta. Atbilstības kvalitāte arī paliek augsta.
Mūsu BUJ aptver izplatītus jautājumus par OCR bāzētu apstrādi un audita pierādījumu prasībām.