GDPR և հին սկաներված ֆայլեր. OCR անձնական տվյալների համար
Թարմացված է 2026 թ.-ի համար
GDPR-ի ստուգումները հաճախ բացահայտում են նույն թաքնված ռիսկը. հին պատկերային PDF արխիվները:
Իրավաբանական ընկերությունները պահում են 20 տարվա սկաներված հաճախորդական ֆայլեր: Հիվանդանոցները պահում են տասնամյակների հիվանդ ձևաթղթեր: Կառավարական մարմինները պահում են սկաներված փաստաթղթեր: Բանկերն ունեն ծածկույթային վարկային ֆայլեր:
Այս արխիվներն ունեն մեկ ընդհանուր հատկություն: Ֆայլերը ռաստրային պատկերներ են` սկաներված PDF, TIFF կամ JPEG: Տեքստային շերտ չկա: Ստանդարտ PII գործիքները չեն կարողանում կարդալ դրանք: Անանունացման գործիքների մեծ մասի համար այս ֆայլերը պարզապես գոյություն չունեն:
Տարածված կարծիք է. «Սրանք պատկերային ֆայլեր են - GDPR-ը չի կիրառվում»:
GDPR-ի 17(1) հոդվածը մարդկանց տալիս է ջնջման իրավունք: Recital 26-ը ասում է, որ անանունացումը անձնական տեղեկատվությունը հանում է կարգավորման ոլորտից: Ոչ մեկը բացառություն չի նախատեսում պատկերային ֆորմատների համար: Իրավաբանական ընկերությունը, որը չի կարողանում կատարել 15 տարի առաջ ստեղծված հաճախորդի ֆայլի ջնջման պահանջ, ունի համապատասխանության բացը: Այն բացառություն չունի:
Տե՛ս մեր համապատասխանության ակնարկը և անվտանգության փաստաթղթերը GDPR-ի աջակցության վերաբերյալ:
Ինչպես է աշխատում հայտնաբերման խողովակը
Գործընթացն ընթանում է երեք փուլով:
Փուլ 1 — OCR
OCR շարժիչը կարդում է պատկերը և հանում տեքստը: Այն արձանագրում է յուրաքանչյուր բառի դիրքը: Ելքը մեքենայի ընթերցվող տեքստ է կոորդինատներով: Ճշգրտությունը նվազում է, երբ ձեռքով գրված, գունատ թանաքով կամ հին տիպատառերով բնագրեր կան:
Փուլ 2 — NLP-ով կողմ հայտնաբերում
Անունների ճանաչման (NER) համակարգը սկանավորում է OCR տեքստը: Այն գտնում է անձնական անուններ, կազմակերպություններ և վայրեր: Ձևաչափի ճանաչումը ավելացնում է սոցիալական ապահովության համարները, հեռախոսահամարները և հաշվի համարները: Յուրաքանչյուր գտածո ստանում է վստահության գնահատական:
Փուլ 3 — Անանունացում
Հայտնաբերված կողմերը փոխարինվում են տեքստային ելքում: Բնօրինակ պատկերը չի փոխվում: Պատկերի փոփոխությունն պահանջում է առանձին ջնջման գործիք: Անանունացված տեքստն աջակցում է ջնջման պահանջներին, DSAR պատասխաններին և համապատասխանության արձանագրություններին:
Նորագույն OCR շարժիչները հասնում են 98–99% նիշի ճշգրտության մաքուր տպված էջերի վրա: Ձեռագիրը կամ վատ որակի սկաները 85–92% են: Կողմ-մակարդակի ճշգրտությունը հակված է ավելի բարձր լինել, քան նիշ-մակարդակի ճշգրտությունը: Անունը կարելի է նույնականացնել նույնիսկ, երբ մի քանի տառ սխալ է:
Պրակտիկ եզրակացությունն այս է. OCR ճշգրտությունը ազդում է, թե քանի կողմ կընտրեք: Այն չի որոշում, թե արդյոք մեթոդը աշխատում է: Նույնիսկ 90% ճշգրտությամբ գտնում ես անունների և թվերի մեծ մասը: Որակական տիեզերքները դեռ անհրաժեշտ են: Ինքը մեթոդն ամուր է:
Մեծ արխիվի մշակումը
Մեծ հին արխիվները հետևում են չորս փուլ աշխատահոսքին:
Փուլ 1 — Գույքագրում. Ցուցակավորեք բոլոր պատկերային արխիվները: Նշեք աղբյուրային համակարգն ու ամսաթվային միջակայքը: Նախ՝ բարձր ջնջման ռիսկ ունեցող գրառումները: Հաճախորդի ֆայլերն առաջ են ներքին ֆայլերից:
Փուլ 2 — Խմբաքանակային մշակում. Կատարեք OCR և PII հայտնաբերում խմբաքանակներով: Մեկ խմբաքանակում հինգ-տաս հազար ֆայլ է սովորաբար: Մշակումն ընթանում է գիշերային ռեժիմով: Ելքը PII զեկույց է և անանունացված տեքստ-քաղված ամեն ֆայլի համար:
Փուլ 3 — Ջնջման կատարում. Սուբյեկտն ուղարկում է պահանջ իր անունով և ժամանակաշրջանով: Որոնեք անանունացված արձանագրություններն ըստ նրանց token-ների: Գտե՛ք ֆայլերը: Ջնջե՛ք: Արձանագրե՛ք:
Փուլ 4 — Շարունակական համապատասխանություն. Նոր սկաներված ֆայլերն ուղարկեք նույն խողովակ, նախքան արխիվացնելը: Պահե՛ք PII զեկույցները 30-րդ հոդվածի Մշակման գործողությունների ռեեստրի ապացույցների համար:
Դեպքի ուսումնասիրություն. Իրավաբանական ընկերության արխիվ
Իրավաբանական ընկերության աուդիտը հայտնաբերեց 80,000 պատկերային PDF հաճախորդական պայմանագիր, որոնք սկաներվել էին 1998-ից 2010 թ.: Ստանդարտ PII գործիքները ցույց տվեցին զրո հայտնաբերում: Պատկերային ֆորմատն անտեսանելի էր:
Տասնհինգ նախկին հաճախորդ ներկայացրել էր ջնջման պահանջ նախորդ 12 ամիսների ընթացքում: Ընկերությունն ասել էր. «Մենք չենք կարողանում հաստատել ձեր գրառումների ջնջումը»: Այդ պատասխանն անբավարար է GDPR-ի 17-րդ հոդվածի պահանջներով:
Ընկերության ձեռնարկած քայլերը:
- Բոլոր 80,000 ֆայլերի OCR և PII հայտնաբերում 5,000-անոց խմբաքանակներով
- Մշակումն ընդգրկեց մոտ երեք շաբաթ
- Արդյունք. 80,000 անանունացված տեքստ-արձանագրություն ֆայլ-ըստ-ֆայլ զեկույցներով
- Ստեղծեց որոնելի ինդեքս, որն ստացված կողմերը կապում է ֆայլ ID-ների հետ
Մշակումից հետո:
- Մեկ սուբյեկտի ֆայլ գտնելը. միջինը 4 րոպե
- Ֆայլ մեկ պահանջի համար. 6–8 ֆայլ
- Ջնջման ժամանակ մեկ պահանջի համար. 20–30 րոպե
Բոլոր 15 կախված պահանջները կարգավորվեցին 30 օրվա ընթացքում:
Հիմնական կետ. համապատասխանության պարտավորությունն արդեն գոյություն ուներ մշակումից առաջ: Ընկերությանն ուղղակի բացակայում էին այն կատարելու գործիքները: OCR-ի վրա հիմնված մշակումը նոր պարտականություն չստեղծեց: Այն արդեն գոյություն ունեցող պարտականությունը կատարելու հնարավورություն ստեղծեց:
OCR-ի սահմանափակումները և որակի մակարդակները
Ձեռագիրն ունի ավելի ցածր OCR ճշգրտություն: Ձեռագիր բովանդակությունը մշակելուց առաջ սահմանե՛ք ցածր վստահության շեմ:
Ցածր սկանի որակն իջեցնում է գնահատականները: Կոնտրաստի բարձրացումն ու de-skewing-ն օգնում են, նախքան OCR-ը գործարկի:
Անսովոր դասավորվածքները — բազմաստիճան էջեր, հին իրավաբանական տիպատառեր — նույնպես կարող են ավելի ցածր գնահատական ունենալ:
Սահմանե՛ք որակային մակarals-ներ համապattempt-ության համար.
- 95%-ից բարձր էջ ճshgritutyan: Կատareli ownedmated userketsyal mshakum
- 80–95%: Katarekutsyal avtomataysats mshakum, apet mardkan vyerkavarkutyun hashtel ardzakan kołmeri hamar
- 80%-itsits pakes: Oogharkutsyal mardkan vyerkavarkutyun
Ա tiered approach gives regulators a clear answer about how you assessed reliability. Most automated tools handle the high-confidence files. A manual queue handles the rest. Throughput stays high. Compliance quality stays high too.
Մեր FAQ ընդգրկում է OCR-ի վրա հիմնված մшакumu-ի ու aودитային արdzanagrutyan pataskhannerum stetsord hanrahin hashvy: