GDPR na Faili za Zamani Zilizoskanishwa: OCR kwa PII
Imesasishwa kwa 2026
Ukaguzi wa GDPR mara nyingi hubaini hatari sawa iliyofichwa: kumbukumbu za zamani za PDF zinazotegemea picha.
Makampuni ya kisheria yana faili za wateja zilizoskanishwa kwa miaka 20. Hospitali zinaweka fomu za wagonjwa kwa miongo kadhaa. Mashirika ya serikali huweka kumbukumbu zilizoskanishwa. Mabenki yana faili za mikopo ziliyopigwa picha.
Kumbukumbu hizi zinashiriki sifa moja. Faili ni picha za raster — PDF zilizoskanishwa, TIFF, au JPEG. Hakuna safu ya maandishi. Zana za kawaida za PII haziwezi kuzisoma. Kwa zana nyingi za kutokujulikana, faili hizi hazipo.
Imani ya kawaida: "Hizi ni faili za picha — GDPR haitumiki."
Ibara ya 17(1) ya GDPR inawapa watu haki ya kufutwa. Kipande cha 26 kinasema kutokujulikana kunaondoa taarifa za kibinafsi kutoka kwa wigo. Hakuna inayoweka ubaguzi kwa muundo wa picha. Kampuni ya kisheria ambayo haiwezi kutimiza ombi la kufutwa kwa faili ya mteja ya miaka 15 ina pengo la uzingativu. Haina msamaha.
Angalia muhtasari wetu wa uzingativu na mazoea ya usalama kuhusu jinsi tunavyounga mkono GDPR.
Jinsi Mfululizo wa Ugunduzi Unavyofanya Kazi
Mchakato unafanyika katika hatua tatu.
Hatua ya 1 — OCR
Injini ya OCR inasoma picha na kutoa maandishi. Inaweka nafasi ya kila neno. Matokeo ni maandishi yanayoweza kusomwa na mashine pamoja na kuratibu. Usahihi hupungua wakati maandishi ya mkono, wino uliofifiwa, au fonti za zamani zinawepo.
Hatua ya 2 — Ugunduzi wa Viumbe vya NLP
Utambuzi wa Viumbe Vilivyotajwa (NER) hupitia maandishi ya OCR. Hubaini majina ya watu, mashirika, na maeneo. Ulinganishaji wa mfumo huongeza SSN, nambari za simu, na nambari za akaunti. Kila tukio hupata alama ya kuaminika.
Hatua ya 3 — Kutokujulikana
Viumbe vilivyogunduliwa vinabadilishwa katika matokeo ya maandishi. Picha asili haibadilishwi. Kubadilisha picha kunahitaji zana tofauti za kukatakata. Maandishi yaliyofanywa yasiyojulikana yanaunga mkono maombi ya kufutwa, majibu ya DSAR, na kumbukumbu za uzingativu.
Injini za kisasa za OCR zinafikia usahihi wa herufi wa 98-99% kwenye kurasa zilizochapishwa safi. Maandishi ya mkono au skani zilizoharibiwa zinafikia 85-92%. Usahihi wa kiwango cha viumbe huwa juu zaidi ya usahihi wa kiwango cha herufi. Jina linaweza kutambuliwa hata wakati herufi chache ziko vibaya.
Matokeo ya vitendo: Usahihi wa OCR unaathiri ni viumbe vingapi unavyopata. Haiamui kama njia inafanya kazi. Hata kwa usahihi wa 90%, utapata majina mengi na nambari nyingi. Viwango vya ubora bado vinahitajika. Njia yenyewe ni nzuri.
Kuchakata Kumbukumbu Kubwa
Kumbukumbu kubwa za urithi zinafuata mtiririko wa kazi wa awamu nne.
Awamu ya 1 — Orodha: Orodhesha kumbukumbu zote zinazotegemea picha. Angazia mfumo wa chanzo na masafa ya tarehe. Weka kumbukumbu zenye hatari kubwa ya kufutwa kwanza. Faili zinazomhusu mteja zinakuja kabla ya zile za ndani.
Awamu ya 2 — Kuchakata kwa wingi: Endesha OCR na ugunduzi wa PII kwa makundi. Faili elfu tano hadi kumi kwa kundi ni ukubwa wa kawaida. Uchakataji hufanyika usiku. Matokeo ni ripoti ya PII na dondoo la maandishi yasiyojulikana kwa kila faili.
Awamu ya 3 — Kutimiza kufutwa: Mhusika anatuma ombi na jina lake na kipindi. Tafuta tokeni zao katika dondoo zilizofanywa zisijulikane. Pata faili. Zikatize. Rekodi kitendo.
Awamu ya 4 — Uzingativu unaoendelea: Weka faili mpya zilizoskanishwa kupitia mfululizo huo huo kabla ya kuzihifadhi. Weka ripoti za PII kama ushahidi wa Kumbukumbu za Shughuli za Uchakataji wa Ibara ya 30.
Utafiti wa Hali: Kumbukumbu ya Kampuni ya Kisheria
Ukaguzi wa kampuni ya kisheria ulibaini mikataba 80,000 ya wateja ya PDF inayotegemea picha iliyoskanishwa kutoka 1998 hadi 2010. Zana za kawaida za PII zilionyesha ugunduzi wa sifuri. Muundo wa picha haukuonekana.
Wateja wa zamani kumi na watano walikuwa wamewasilisha maombi ya kufutwa katika miezi 12 iliyopita. Kampuni ilisema: "Hatuwezi kuthibitisha kwamba kumbukumbu zako zimefutwa." Jibu hilo halitimizi Ibara ya 17 ya GDPR.
Kilichofanya kampuni:
- Ilifanya OCR na ugunduzi wa PII kwenye faili zote 80,000 kwa makundi ya 5,000
- Uchakataji ulichukua wiki tatu takriban
- Matokeo: dondoo 80,000 za maandishi yasiyojulikana pamoja na ripoti kwa kila faili
- Ilijenga orodha inayoweza kutafutwa inayounganisha viumbe na vitambulisho vya faili
Baada ya uchakataji:
- Kupata faili kwa mhusika mmoja: dakika 4 kwa wastani
- Faili kwa kila ombi: 6-8 kwa wastani
- Muda wa kukatia kwa kila ombi: dakika 20-30
Maombi yote 15 yaliyokuwepo yalitatuliwa ndani ya siku 30.
Nukta muhimu: wajibu wa uzingativu ulikuwepo kabla ya uchakataji. Kampuni ilikuwa tu haina zana za kuutimiza. Uchakataji unaotegemea OCR haukuunda wajibu mpya. Ulifanya wajibu uliokuwepo uweze kutimizwa.
Mipaka ya OCR na Viwango vya Ubora
Maandishi ya mkono yana usahihi wa chini wa OCR. Weka kizingiti cha chini cha kuaminika kabla ya kuchakata maudhui yaliyoandikwa kwa mkono.
Ubora mbaya wa skani hupunguza alama. Uimarishaji wa mwangaza na kusawazisha husaidia kabla ya OCR kufanyika.
Mpangilio usio wa kawaida — kurasa za safu nyingi, fonti za kisheria za zamani — unaweza pia kupata alama za chini.
Weka viwango vya ubora kwa kazi za uzingativu:
- Zaidi ya 95% usahihi wa ukurasa: endesha uchakataji wa kiotomatiki
- 80-95%: endesha uchakataji wa kiotomatiki, kisha ukaguzi wa binadamu kwa viumbe vilivyoashiriwa
- Chini ya 80%: tuma kwa ukaguzi wa mkono
Mkabala wenye viwango unawapa wasimamizi jibu wazi kuhusu jinsi unavyotathmini uaminifu. Zana nyingi za kiotomatiki hushughulikia faili zenye kuaminika sana. Foleni ya mkono hushughulikia zilizobaki. Kiwango cha kuchakata kinabaki juu. Ubora wa uzingativu pia unabaki juu.
Maswali ya kawaida kuhusu uchakataji unaotegemea OCR na mahitaji ya mkondo wa ukaguzi yanashughulikiwa katika Maswali Yanayoulizwa Mara Kwa Mara.