anonym.legal

By · Last updated 2026-06-06

Վերադառնալ բլոգինGDPR & Համապատասխանություն

GDPR և հին սկաներված փաստաթղթեր. OCR + անձնական տվյալներ

GDPR-ի ջնջման իրավունքը կիրառվում է անձնական տվյալների նկատմամբ «ֆորմատից անկախ»: Թղթե արխիվներից ստացված պատկերային PDF-ները բացառություն չեն:

June 6, 20267 րոպե կարդալ
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR և հին սկաներված ֆայլեր. OCR անձնական տվյալների համար

Թարմացված է 2026 թ.-ի համար

GDPR-ի ստուգումները հաճախ բացահայտում են նույն թաքնված ռիսկը. հին պատկերային PDF արխիվները:

Իրավաբանական ընկերությունները պահում են 20 տարվա սկաներված հաճախորդական ֆայլեր: Հիվանդանոցները պահում են տասնամյակների հիվանդ ձևաթղթեր: Կառավարական մարմինները պահում են սկաներված փաստաթղթեր: Բանկերն ունեն ծածկույթային վարկային ֆայլեր:

Այս արխիվներն ունեն մեկ ընդհանուր հատկություն: Ֆայլերը ռաստրային պատկերներ են` սկաներված PDF, TIFF կամ JPEG: Տեքստային շերտ չկա: Ստանդարտ PII գործիքները չեն կարողանում կարդալ դրանք: Անանունացման գործիքների մեծ մասի համար այս ֆայլերը պարզապես գոյություն չունեն:

Տարածված կարծիք է. «Սրանք պատկերային ֆայլեր են - GDPR-ը չի կիրառվում»:

GDPR-ի 17(1) հոդվածը մարդկանց տալիս է ջնջման իրավունք: Recital 26-ը ասում է, որ անանունացումը անձնական տեղեկատվությունը հանում է կարգավորման ոլորտից: Ոչ մեկը բացառություն չի նախատեսում պատկերային ֆորմատների համար: Իրավաբանական ընկերությունը, որը չի կարողանում կատարել 15 տարի առաջ ստեղծված հաճախորդի ֆայլի ջնջման պահանջ, ունի համապատասխանության բացը: Այն բացառություն չունի:

Տե՛ս մեր համապատասխանության ակնարկը և անվտանգության փաստաթղթերը GDPR-ի աջակցության վերաբերյալ:

Ինչպես է աշխատում հայտնաբերման խողովակը

Գործընթացն ընթանում է երեք փուլով:

Փուլ 1 — OCR

OCR շարժիչը կարդում է պատկերը և հանում տեքստը: Այն արձանագրում է յուրաքանչյուր բառի դիրքը: Ելքը մեքենայի ընթերցվող տեքստ է կոորդինատներով: Ճշգրտությունը նվազում է, երբ ձեռքով գրված, գունատ թանաքով կամ հին տիպատառերով բնագրեր կան:

Փուլ 2 — NLP-ով կողմ հայտնաբերում

Անունների ճանաչման (NER) համակարգը սկանավորում է OCR տեքստը: Այն գտնում է անձնական անուններ, կազմակերպություններ և վայրեր: Ձևաչափի ճանաչումը ավելացնում է սոցիալական ապահովության համարները, հեռախոսահամարները և հաշվի համարները: Յուրաքանչյուր գտածո ստանում է վստահության գնահատական:

Փուլ 3 — Անանունացում

Հայտնաբերված կողմերը փոխարինվում են տեքստային ելքում: Բնօրինակ պատկերը չի փոխվում: Պատկերի փոփոխությունն պահանջում է առանձին ջնջման գործիք: Անանունացված տեքստն աջակցում է ջնջման պահանջներին, DSAR պատասխաններին և համապատասխանության արձանագրություններին:

Նորագույն OCR շարժիչները հասնում են 98–99% նիշի ճշգրտության մաքուր տպված էջերի վրա: Ձեռագիրը կամ վատ որակի սկաները 85–92% են: Կողմ-մակարդակի ճշգրտությունը հակված է ավելի բարձր լինել, քան նիշ-մակարդակի ճշգրտությունը: Անունը կարելի է նույնականացնել նույնիսկ, երբ մի քանի տառ սխալ է:

Պրակտիկ եզրակացությունն այս է. OCR ճշգրտությունը ազդում է, թե քանի կողմ կընտրեք: Այն չի որոշում, թե արդյոք մեթոդը աշխատում է: Նույնիսկ 90% ճշգրտությամբ գտնում ես անունների և թվերի մեծ մասը: Որակական տիեզերքները դեռ անհրաժեշտ են: Ինքը մեթոդն ամուր է:

Մեծ արխիվի մշակումը

Մեծ հին արխիվները հետևում են չորս փուլ աշխատահոսքին:

Փուլ 1 — Գույքագրում. Ցուցակավորեք բոլոր պատկերային արխիվները: Նշեք աղբյուրային համակարգն ու ամսաթվային միջակայքը: Նախ՝ բարձր ջնջման ռիսկ ունեցող գրառումները: Հաճախորդի ֆայլերն առաջ են ներքին ֆայլերից:

Փուլ 2 — Խմբաքանակային մշակում. Կատարեք OCR և PII հայտնաբերում խմբաքանակներով: Մեկ խմբաքանակում հինգ-տաս հազար ֆայլ է սովորաբար: Մշակումն ընթանում է գիշերային ռեժիմով: Ելքը PII զեկույց է և անանունացված տեքստ-քաղված ամեն ֆայլի համար:

Փուլ 3 — Ջնջման կատարում. Սուբյեկտն ուղարկում է պահանջ իր անունով և ժամանակաշրջանով: Որոնեք անանունացված արձանագրություններն ըստ նրանց token-ների: Գտե՛ք ֆայլերը: Ջնջե՛ք: Արձանագրե՛ք:

Փուլ 4 — Շարունակական համապատասխանություն. Նոր սկաներված ֆայլերն ուղարկեք նույն խողովակ, նախքան արխիվացնելը: Պահե՛ք PII զեկույցները 30-րդ հոդվածի Մշակման գործողությունների ռեեստրի ապացույցների համար:

Դեպքի ուսումնասիրություն. Իրավաբանական ընկերության արխիվ

Իրավաբանական ընկերության աուդիտը հայտնաբերեց 80,000 պատկերային PDF հաճախորդական պայմանագիր, որոնք սկաներվել էին 1998-ից 2010 թ.: Ստանդարտ PII գործիքները ցույց տվեցին զրո հայտնաբերում: Պատկերային ֆորմատն անտեսանելի էր:

Տասնհինգ նախկին հաճախորդ ներկայացրել էր ջնջման պահանջ նախորդ 12 ամիսների ընթացքում: Ընկերությունն ասել էր. «Մենք չենք կարողանում հաստատել ձեր գրառումների ջնջումը»: Այդ պատասխանն անբավարար է GDPR-ի 17-րդ հոդվածի պահանջներով:

Ընկերության ձեռնարկած քայլերը:

  • Բոլոր 80,000 ֆայլերի OCR և PII հայտնաբերում 5,000-անոց խմբաքանակներով
  • Մշակումն ընդգրկեց մոտ երեք շաբաթ
  • Արդյունք. 80,000 անանունացված տեքստ-արձանագրություն ֆայլ-ըստ-ֆայլ զեկույցներով
  • Ստեղծեց որոնելի ինդեքս, որն ստացված կողմերը կապում է ֆայլ ID-ների հետ

Մշակումից հետո:

  • Մեկ սուբյեկտի ֆայլ գտնելը. միջինը 4 րոպե
  • Ֆայլ մեկ պահանջի համար. 6–8 ֆայլ
  • Ջնջման ժամանակ մեկ պահանջի համար. 20–30 րոպե

Բոլոր 15 կախված պահանջները կարգավորվեցին 30 օրվա ընթացքում:

Հիմնական կետ. համապատասխանության պարտավորությունն արդեն գոյություն ուներ մշակումից առաջ: Ընկերությանն ուղղակի բացակայում էին այն կատարելու գործիքները: OCR-ի վրա հիմնված մշակումը նոր պարտականություն չստեղծեց: Այն արդեն գոյություն ունեցող պարտականությունը կատարելու հնարավورություն ստեղծեց:

OCR-ի սահմանափակումները և որակի մակարդակները

Ձեռագիրն ունի ավելի ցածր OCR ճշգրտություն: Ձեռագիր բովանդակությունը մշակելուց առաջ սահմանե՛ք ցածր վստահության շեմ:

Ցածր սկանի որակն իջեցնում է գնահատականները: Կոնտրաստի բարձրացումն ու de-skewing-ն օգնում են, նախքան OCR-ը գործարկի:

Անսովոր դասավորվածքները — բազմաստիճան էջեր, հին իրավաբանական տիպատառեր — նույնպես կարող են ավելի ցածր գնահատական ունենալ:

Սահմանե՛ք որակային մակarals-ներ համապattempt-ության համար.

  • 95%-ից բարձր էջ ճshgritutyan: Կատareli ownedmated userketsyal mshakum
  • 80–95%: Katarekutsyal avtomataysats mshakum, apet mardkan vyerkavarkutyun hashtel ardzakan kołmeri hamar
  • 80%-itsits pakes: Oogharkutsyal mardkan vyerkavarkutyun

Ա tiered approach gives regulators a clear answer about how you assessed reliability. Most automated tools handle the high-confidence files. A manual queue handles the rest. Throughput stays high. Compliance quality stays high too.

Մեր FAQ ընդգրկում է OCR-ի վրա հիմնված մшакumu-ի ու aودитային արdzanagrutyan pataskhannerum stetsord hanrahin hashvy:

Աղբյուրներ

Պատրաստ եք պաշտպանելու ձեր տվյալները?

Սկսեք PII անանոնիմացնել 285+ կազմակերպության տեսակներով 48 լեզուներով:

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.