Atjaunināts 2026. gadam

GDPR auditi bieži atklāj to pašu slēpto risku: vecus attēlbāzētus PDF arhīvus.

Juridiskās firmas glabā 20 gadu skenētas klientu lietas. Slimnīcas uztur gadu desmitu pacientu veidlapas. Valdības iestādes glabā skenētus ierakstus. Bankas uztur digitalizētas aizdevumu lietas.

Šiem arhīviem ir viena kopīga iezīme. Faili ir rastra attēli — skenēti PDF, TIFF vai JPEG formātā. Tajiem nav teksta slāņa. Standarta PII rīki tos nevar nolasīt. Vairumam anonimizācijas rīku šie faili vienkārši nepastāv.

Izplatīts uzskats: "Tie ir attēlu faili — GDPR uz tiem neattiecas."

GDPR 17. panta 1. punkts piešķir cilvēkiem tiesības uz dzēšanu. 26. apsvērums norāda, ka anonimizācija izslēdz personas informāciju no darbības jomas. Neviens no tiem neparedz izņēmumu attēlu formātiem. Juridiskajai firmai, kas nevar izpildīt dzēšanas pieprasījumu par 15 gadus vecu klienta lietu, ir atbilstības trūkums. Tai nav izņēmuma.

Skatiet mūsu atbilstības pārskatu un drošības praksi, lai uzzinātu, kā mēs atbalstām GDPR.

Kā darbojas noteikšanas cauruļvads

Process darbojas trīs posmos.

1. posms — OCR

OCR dzinējs nolasa attēlu un iegūst tekstu. Tas reģistrē katras vārda atrašanās vietu. Izvade ir mašīnlasāms teksts ar koordinātām. Precizitāte samazinās, ja ir rokraksts, izbalējusi tinte vai veci burtu veidi.

2. posms — NLP entītiju noteikšana

Nosaukto entītiju atpazīšana (NER) skenē OCR tekstu. Tā atrod personu vārdus, organizācijas un atrašanās vietas. Paraugu saskaņošana pievieno sociālās apdrošināšanas numurus, tālruņu numurus un konta numurus. Katrai atrastajai vienībai tiek piešķirts ticamības rādītājs.

3. posms — Anonimizācija

Atklātās entītijas tiek aizstātas teksta izvadē. Oriģinālais attēls netiek mainīts. Attēla maiņai nepieciešami atsevišķi rediģēšanas rīki. Anonimizētais teksts atbalsta dzēšanas pieprasījumus, DSAR atbildes un atbilstības ierakstus.

Mūsdienu OCR dzinēji sasniedz 98–99% rakstzīmju precizitāti tīrās drukātās lapās. Rokraksts vai pasliktinātas skenēšanas samazina to līdz 85–92%. Entītiju līmeņa precizitāte parasti ir augstāka nekā rakstzīmju līmeņa precizitāte. Vārdu var identificēt pat tad, ja dažas burtas ir nepareizas.

Praktiskā secinājums: OCR precizitāte ietekmē to, cik entītiju jūs atrodat. Tā nenosaka, vai metode darbojas. Pat pie 90% precizitātes jūs atrodat lielāko daļu vārdu un skaitļu. Kvalitātes pakāpes joprojām ir nepieciešamas. Pati metode ir pamatota.

Liela arhīva apstrāde

Lieli mantotie arhīvi seko četrfāžu darbplūsmai.

1. fāze — Inventarizācija: Uzskaitiet visus attēlbāzētus arhīvus. Atzīmējiet avota sistēmu un datumu diapazonu. Vispirms ievietojiet augsta dzēšanas riska ierakstus. Klientiem paredzētie faili ir pirms iekšējiem.

2. fāze — Paketes apstrāde: Palaidiet OCR un PII noteikšanu partijās. Pieci līdz desmit tūkstoši failu vienā partijā ir izplatīts izmērs. Apstrāde notiek pa nakti. Izvade ir PII ziņojums un anonimizēts teksta izraksts katram failam.

3. fāze — Dzēšanas izpilde: Subjekts nosūta pieprasījumu ar savu vārdu un periodu. Meklējiet viņu marķierus anonimizētajos izrakstus. Atrodiet failus. Rediģējiet tos. Reģistrējiet darbību.

4. fāze — Pastāvīga atbilstība: Laidiet jaunus skenētus failus caur to pašu cauruļvadu pirms to arhivēšanas. Saglabājiet PII ziņojumus kā 30. panta apstrādes darbību pierādījumus.

Gadījuma izpēte: Juridiskās firmas arhīvs

Juridiskās firmas audits atklāja 80 000 attēlbāzētus PDF klientu līgumus, kas skenēti no 1998. līdz 2010. gadam. Standarta PII rīki uzrādīja nulli atklājumu. Attēlu formāts bija neredzams.

Piecpadsmit bijušie klienti bija iesnieguši dzēšanas pieprasījumus iepriekšējo 12 mēnešu laikā. Firma teica: "Mēs nevaram apstiprināt, ka jūsu ieraksti ir dzēsti." Šī atbilde neatbilst GDPR 17. pantam.

Ko firma darīja:

Palaida OCR un PII noteikšanu visiem 80 000 failiem partijās pa 5 000
Apstrāde aizņēma apmēram trīs nedēļas
Rezultāts: 80 000 anonimizētu teksta izrakstu ar failu ziņojumiem
Izveidoja meklējamu indeksu, kas saista entītijas ar failu ID

Pēc apstrādes:

Failu atrašana vienam subjektam: vidēji 4 minūtes
Faili vienam pieprasījumam: vidēji 6–8
Rediģēšanas laiks vienam pieprasījumam: 20–30 minūtes

Visi 15 neizpildītie pieprasījumi tika atrisināti 30 dienu laikā.

Galvenais punkts: atbilstības pienākums pastāvēja pirms apstrādes. Firmai vienkārši trūka rīku, lai to izpildītu. OCR bāzēta apstrāde neradīja jaunu pienākumu. Tā padarīja esošo pienākumu izpildāmu.

OCR ierobežojumi un kvalitātes pakāpes

Rokrakstam ir zemāka OCR precizitāte. Iestatiet zemāku ticamības slieksni pirms rokraksta satura apstrādes.

Slikta skenēšanas kvalitāte samazina rādītājus. Kontrasta uzlabošana un sašķiebuma novēršana palīdz pirms OCR darbības.

Neparasti izkārtojumi — vairāku kolonnu lapas, veci juridiskā burtu veidi — var arī iegūt zemākus rādītājus.

Iestatiet kvalitātes pakāpes atbilstības darbam:

Virs 95% lapas precizitātes: palaidiet automatizētu apstrādi
80–95%: palaidiet automatizētu apstrādi, pēc tam cilvēka pārskats atzīmētajām entītijām
Zem 80%: nosūtiet uz manuālu pārskatu

Pakāpju pieeja sniedz regulatoriem skaidru atbildi par to, kā jūs novērtējāt uzticamību. Lielākā daļa automatizēto rīku apstrādā augstas ticamības failus. Manuāla rinda apstrādā pārējos. Caurlaidspēja paliek augsta. Atbilstības kvalitāte arī paliek augsta.

Mūsu BUJ aptver izplatītus jautājumus par OCR bāzētu apstrādi un audita pierādījumu prasībām.

Avoti

Saistītie Raksti

GDPR un Atbilstība

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

GDPR mantotie skenētie dokumenti: OCR un PII

Kā darbojas noteikšanas cauruļvads

Liela arhīva apstrāde

Gadījuma izpēte: Juridiskās firmas arhīvs

OCR ierobežojumi un kvalitātes pakāpes

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

GDPR mantotie skenētie dokumenti: OCR un PII

GDPR un mantotie skenētie faili: OCR personas datu aizsardzībai

Kā darbojas noteikšanas cauruļvads

Liela arhīva apstrāde

Gadījuma izpēte: Juridiskās firmas arhīvs

OCR ierobežojumi un kvalitātes pakāpes

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow