Թարմացված է 2026 թ.-ի համար

GDPR-ի ստուգումները հաճախ բացահայտում են նույն թաքնված ռիսկը. հին պատկերային PDF արխիվները:

Իրավաբանական ընկերությունները պահում են 20 տարվա սկաներված հաճախորդական ֆայլեր: Հիվանդանոցները պահում են տասնամյակների հիվանդ ձևաթղթեր: Կառավարական մարմինները պահում են սկաներված փաստաթղթեր: Բանկերն ունեն ծածկույթային վարկային ֆայլեր:

Այս արխիվներն ունեն մեկ ընդհանուր հատկություն: Ֆայլերը ռաստրային պատկերներ են` սկաներված PDF, TIFF կամ JPEG: Տեքստային շերտ չկա: Ստանդարտ PII գործիքները չեն կարողանում կարդալ դրանք: Անանունացման գործիքների մեծ մասի համար այս ֆայլերը պարզապես գոյություն չունեն:

Տարածված կարծիք է. «Սրանք պատկերային ֆայլեր են - GDPR-ը չի կիրառվում»:

GDPR-ի 17(1) հոդվածը մարդկանց տալիս է ջնջման իրավունք: Recital 26-ը ասում է, որ անանունացումը անձնական տեղեկատվությունը հանում է կարգավորման ոլորտից: Ոչ մեկը բացառություն չի նախատեսում պատկերային ֆորմատների համար: Իրավաբանական ընկերությունը, որը չի կարողանում կատարել 15 տարի առաջ ստեղծված հաճախորդի ֆայլի ջնջման պահանջ, ունի համապատասխանության բացը: Այն բացառություն չունի:

Տե՛ս մեր համապատասխանության ակնարկը և անվտանգության փաստաթղթերը GDPR-ի աջակցության վերաբերյալ:

Ինչպես է աշխատում հայտնաբերման խողովակը

Գործընթացն ընթանում է երեք փուլով:

Փուլ 1 — OCR

OCR շարժիչը կարդում է պատկերը և հանում տեքստը: Այն արձանագրում է յուրաքանչյուր բառի դիրքը: Ելքը մեքենայի ընթերցվող տեքստ է կոորդինատներով: Ճշգրտությունը նվազում է, երբ ձեռքով գրված, գունատ թանաքով կամ հին տիպատառերով բնագրեր կան:

Փուլ 2 — NLP-ով կողմ հայտնաբերում

Անունների ճանաչման (NER) համակարգը սկանավորում է OCR տեքստը: Այն գտնում է անձնական անուններ, կազմակերպություններ և վայրեր: Ձևաչափի ճանաչումը ավելացնում է սոցիալական ապահովության համարները, հեռախոսահամարները և հաշվի համարները: Յուրաքանչյուր գտածո ստանում է վստահության գնահատական:

Փուլ 3 — Անանունացում

Հայտնաբերված կողմերը փոխարինվում են տեքստային ելքում: Բնօրինակ պատկերը չի փոխվում: Պատկերի փոփոխությունն պահանջում է առանձին ջնջման գործիք: Անանունացված տեքստն աջակցում է ջնջման պահանջներին, DSAR պատասխաններին և համապատասխանության արձանագրություններին:

Նորագույն OCR շարժիչները հասնում են 98–99% նիշի ճշգրտության մաքուր տպված էջերի վրա: Ձեռագիրը կամ վատ որակի սկաները 85–92% են: Կողմ-մակարդակի ճշգրտությունը հակված է ավելի բարձր լինել, քան նիշ-մակարդակի ճշգրտությունը: Անունը կարելի է նույնականացնել նույնիսկ, երբ մի քանի տառ սխալ է:

Պրակտիկ եզրակացությունն այս է. OCR ճշգրտությունը ազդում է, թե քանի կողմ կընտրեք: Այն չի որոշում, թե արդյոք մեթոդը աշխատում է: Նույնիսկ 90% ճշգրտությամբ գտնում ես անունների և թվերի մեծ մասը: Որակական տիեզերքները դեռ անհրաժեշտ են: Ինքը մեթոդն ամուր է:

Մեծ արխիվի մշակումը

Մեծ հին արխիվները հետևում են չորս փուլ աշխատահոսքին:

Փուլ 1 — Գույքագրում. Ցուցակավորեք բոլոր պատկերային արխիվները: Նշեք աղբյուրային համակարգն ու ամսաթվային միջակայքը: Նախ՝ բարձր ջնջման ռիսկ ունեցող գրառումները: Հաճախորդի ֆայլերն առաջ են ներքին ֆայլերից:

Փուլ 2 — Խմբաքանակային մշակում. Կատարեք OCR և PII հայտնաբերում խմբաքանակներով: Մեկ խմբաքանակում հինգ-տաս հազար ֆայլ է սովորաբար: Մշակումն ընթանում է գիշերային ռեժիմով: Ելքը PII զեկույց է և անանունացված տեքստ-քաղված ամեն ֆայլի համար:

Փուլ 3 — Ջնջման կատարում. Սուբյեկտն ուղարկում է պահանջ իր անունով և ժամանակաշրջանով: Որոնեք անանունացված արձանագրություններն ըստ նրանց token-ների: Գտե՛ք ֆայլերը: Ջնջե՛ք: Արձանագրե՛ք:

Փուլ 4 — Շարունակական համապատասխանություն. Նոր սկաներված ֆայլերն ուղարկեք նույն խողովակ, նախքան արխիվացնելը: Պահե՛ք PII զեկույցները 30-րդ հոդվածի Մշակման գործողությունների ռեեստրի ապացույցների համար:

Դեպքի ուսումնասիրություն. Իրավաբանական ընկերության արխիվ

Իրավաբանական ընկերության աուդիտը հայտնաբերեց 80,000 պատկերային PDF հաճախորդական պայմանագիր, որոնք սկաներվել էին 1998-ից 2010 թ.: Ստանդարտ PII գործիքները ցույց տվեցին զրո հայտնաբերում: Պատկերային ֆորմատն անտեսանելի էր:

Տասնհինգ նախկին հաճախորդ ներկայացրել էր ջնջման պահանջ նախորդ 12 ամիսների ընթացքում: Ընկերությունն ասել էր. «Մենք չենք կարողանում հաստատել ձեր գրառումների ջնջումը»: Այդ պատասխանն անբավարար է GDPR-ի 17-րդ հոդվածի պահանջներով:

Ընկերության ձեռնարկած քայլերը:

Բոլոր 80,000 ֆայլերի OCR և PII հայտնաբերում 5,000-անոց խմբաքանակներով
Մշակումն ընդգրկեց մոտ երեք շաբաթ
Արդյունք. 80,000 անանունացված տեքստ-արձանագրություն ֆայլ-ըստ-ֆայլ զեկույցներով
Ստեղծեց որոնելի ինդեքս, որն ստացված կողմերը կապում է ֆայլ ID-ների հետ

Մշակումից հետո:

Մեկ սուբյեկտի ֆայլ գտնելը. միջինը 4 րոպե
Ֆայլ մեկ պահանջի համար. 6–8 ֆայլ
Ջնջման ժամանակ մեկ պահանջի համար. 20–30 րոպե

Բոլոր 15 կախված պահանջները կարգավորվեցին 30 օրվա ընթացքում:

Հիմնական կետ. համապատասխանության պարտավորությունն արդեն գոյություն ուներ մշակումից առաջ: Ընկերությանն ուղղակի բացակայում էին այն կատարելու գործիքները: OCR-ի վրա հիմնված մշակումը նոր պարտականություն չստեղծեց: Այն արդեն գոյություն ունեցող պարտականությունը կատարելու հնարավورություն ստեղծեց:

OCR-ի սահմանափակումները և որակի մակարդակները

Ձեռագիրն ունի ավելի ցածր OCR ճշգրտություն: Ձեռագիր բովանդակությունը մշակելուց առաջ սահմանե՛ք ցածր վստահության շեմ:

Ցածր սկանի որակն իջեցնում է գնահատականները: Կոնտրաստի բարձրացումն ու de-skewing-ն օգնում են, նախքան OCR-ը գործարկի:

Անսովոր դասավորվածքները — բազմաստիճան էջեր, հին իրավաբանական տիպատառեր — նույնպես կարող են ավելի ցածր գնահատական ունենալ:

Սահմանե՛ք որակային մակarals-ներ համապattempt-ության համար.

95%-ից բարձր էջ ճshgritutyan: Կատareli ownedmated userketsyal mshakum
80–95%: Katarekutsyal avtomataysats mshakum, apet mardkan vyerkavarkutyun hashtel ardzakan kołmeri hamar
80%-itsits pakes: Oogharkutsyal mardkan vyerkavarkutyun

Ա tiered approach gives regulators a clear answer about how you assessed reliability. Most automated tools handle the high-confidence files. A manual queue handles the rest. Throughput stays high. Compliance quality stays high too.

Մեր FAQ ընդգրկում է OCR-ի վրա հիմնված մшакumu-ի ու aودитային արdzanagrutyan pataskhannerum stetsord hanrahin hashvy:

Աղբյուրներ

Հոդվածներ, որոնք կապված են

GDPR & Համապատասխանություն

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

Սկսեք անվճար փորձաշրջան Դիտել առանձնահատկությունները

GDPR և հին սկաներված փաստաթղթեր. OCR + անձնական տվյալներ

Ինչպես է աշխատում հայտնաբերման խողովակը

Մեծ արխիվի մշակումը

Դեպքի ուսումնասիրություն. Իրավաբանական ընկերության արխիվ

OCR-ի սահմանափակումները և որակի մակարդակները

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Inqnahost PII-ë Ëndlaynum ê Hamapatasxanakan Vericutyunyum

Presidio-ն ու բaц ê թolum ê 220+ GDPR kazu

Kazmavorutyunyi Sazhal. Tsnveradzats GDPR Risk

Պատրաստ եք պաշտպանելու ձեր տվյալները?

GDPR և հին սկաներված փաստաթղթեր. OCR + անձնական տվյալներ

GDPR և հին սկաներված ֆայլեր. OCR անձնական տվյալների համար

Ինչպես է աշխատում հայտնաբերման խողովակը

Մեծ արխիվի մշակումը

Դեպքի ուսումնասիրություն. Իրավաբանական ընկերության արխիվ

OCR-ի սահմանափակումները և որակի մակարդակները

Աղբյուրներ

Հոդվածներ, որոնք կապված են

Inqnahost PII-ë Ëndlaynum ê Hamapatasxanakan Vericutyunyum

Presidio-ն ու բaц ê թolum ê 220+ GDPR kazu

Kazmavorutyunyi Sazhal. Tsnveradzats GDPR Risk

Պատրաստ եք պաշտպանելու ձեր տվյալները?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow