anonym.legal

By · Last updated 2026-06-05

Назад на блоготТехнички

Зошто бинарното откривање на лични податоци не ја задоволува усогласеноста

Ознаките откривено/неоткривено не се доволни за контексти на усогласеност кои бараат човечка проценка. Оценувањето на доверба ја претвора анонимизацијата на лични податоци од бинарно погодување во ревидирачка контрола за усогласеност.

June 5, 20268 мин читање
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Зошто бинарното откривање на лични податоци не ја задоволува усогласеноста

Ажурирано за 2026 година

Секоја алатка за лични податоци се соочува со еден тежок проблем. Истиот низ може да биде лични податоци на едно место, а не на друго.

"Јован" во досие на клиент е субјект на податоци. "Јован" во историска книга за Јован Ф. Кенеди не е. Деветцифрен број во медицински запис е HIPAA-код. Истите девет цифри во шифра на производ не се.

Ознаката да/не не може да се справи со ова. Принудува на два лоши избори: редактирање на сите низи кои можеби се лични податоци, или редактирање само на сигурните совпаѓања. И двете не успеваат во правото, каде секоја одлука мора да биде јасна и документирана.

Резултат по ентитет од 0 до 100 нуди трет пат. Тој поттикнува нивоизирани правила, редови за преглед од луѓе и целосни ревизорски записи.

Ограничувањето на ознаките да/не

Контекстот го менува значењето на податоците. Две датотеки можат да содржат ист низ. Во едната, тоа е лични податоци. Во другата, не е. Ознаката не може да го покаже тоа. Бројот може.

Со само ознака, вашите два избори се лоши. Прекумерното редактирање ја уништува вредноста на документот. Недоволното редактирање создава правен ризик. Ниту едното не издржува на суд.

Правно откривање: Зошто се потребни резултати

Правното откривање има правила кои го прават откривањето со резултати задолжително.

Проблемот на прекумерното редактирање. Редактирањето на имиња на адвокати или судски цитати ги штети доказите. Судовите казниле адвокати за прекумерно редактирање. Истото прецедентно право кое ги покрива недоволното редактирање го покрива и ова.

Проблемот на недоволното редактирање. Пропуштањето на вистинските лични податоци создава ризик. Тоа вклучува прекршувања на приватноста на клиентите, жалби до одборот и во некои места кривични обвинувања.

Потребата да се објасни секоја одлука. Кога судот прашува зошто ставката е редактирана, адвокатите мора да го objasnat. "Алатката ја означила" не е доволно. "Алатката ја оценила оваа ставка со 94% како Социјален осигурителен број. Нашето правило автоматски редактира над 85%." Тоа е доволно.

Ознаката да/не не може да го даде тој одговор. Алатката со резултати со поставени правила може. Погледнете исто така: Одбранување на редакции: ВИ Резултати на суд.

Тростепен систем за преглед

Најефикасното поставување користи три нивоа засновани на резултатот на ентитетот.

Ниво 1 - Автоматски (над 85%):

  • Ставки кои одговараат на формати со висока сигурност (SSN, IBAN, MRN)
  • Автоматски редактирани без чекор со луѓе
  • Дневникот евидентира тип на ентитет, резултат, метод и времe
  • Пример: "571-44-9283" со 97% како SSN - автоматски редактирано

Ниво 2 - Преглед од луѓе (50-85%):

  • Ставки кои можеби се лични податоци но бараат проценка
  • Испратени до рецензент да прифати, одбие или реклесификува
  • Дневникот евидентира тип на ентитет, резултат, ID на рецензент, одлука и времe
  • Пример: "Јован Давидски" во техничка документација со 67% - рецензентот потврдува дека е ime - редактирано

Ниво 3 - Само предлог (под 50%):

  • Ставки со ниска сигурност прикажани како совети
  • Не се автоматски редактирани; рецензентот може да дејствува или да прескокне
  • Дневникот евидентира тип на ентитет, резултат и избор на рецензент
  • Пример: "Петров" во документ за производ со 42% - рецензентот утврдува дека е ime на фирма - не е редактирано

Само Ниво 2 бара работа од луѓе. Сите три нивоа произведуваат ревизорски записи.

Kako се градат резултатите

Алатките за лични податоци комбинираат сигнали за да произведат еден број по ентитет.

Regex обрасци. Точното совпаѓање на формат SSN добива висок основен резултат. Делумно совпаѓање добива пониско.

Резултат на моделот. Моделите за именувани ентитети доделуваат веројатност по класа. Резултат од 0,93 за PERSON дава резултат со висока сигурност.

Сигнали на контекст. Текстот околу ентитетот го прилагодува резултатот. "Мојот SSN е 571-44-9283" го зголемува. "Шифра на производ 571-44-9283" го намалува.

Правила на ансамбл. Системите комбинираат regex, модел и сигнали на контекст со поставени тежини. Конечниот број ги одразува сите докази.

Тој број ги поттикнува сите одлуки за праг во вашиот работен тек. За повеќе за лажни позитиви од алатките да/не, погледнете: Данокот на лажни позитиви кај алатките за лични податоци.

Осигурителни барања: Реален пример

Осигурителните датотеки мешаат јасни лични податоци - ime на носителот на полиса, адреса, SSN - со контекст-зависни податоци: имиња на сведоци, имиња на фирми, потписи на проценувачи.

Алатката да/не или ги редактира сите имиња (погрешно за фирмите) или ги пропушта имињата на сведоците (ризик). Алатката со резултати постапува со секоја ставка посебно:

  • SSN со ознака "SSN на носителот на полиса" со 96% - автоматски редактиран
  • Ime на носителот на полиса означено PERSON со 91% - автоматски редактирано
  • Фирма на изведувач означена ORG со 78% - прегледана - рецензентот ја отфрла редакцијата
  • Ime на сведок означено PERSON со 82% - прегледано - рецензентот прифаќа
  • Ime на проценувач означено PERSON со 71% - прегледано - рецензентот прифаќа (податоци на трета страна)

Секоја одлука има нумеричка основа. Ревизорската трага е целосна.

Градење записи за усогласеност

За GDPR Член 5(1)(f) и HIPAA Правилото за безбедност, алатките со резултати генерираат записи самостојно.

Ревизорски записи на ниво на ентитет евидентираат тип на ентитет, резултат, тип на одлука (автоматски или рачен), ID на рецензент и времe. Тие се извезуваат како CSV за барања на органите за заштита на податоци.

Записи за праг ги документираат тековните поставки и секоја промена. Секоја промена вклучува кој ја направил, кога и зошто. Ова покажува управувана, намерна политика.

Статистички извештаи покриваат стапки на откривање по тип на ентитет, стапки на преглед на Ниво 2 и стапки на надминување. Тие одговараат на орган за заштита на податоци кој бара да "ни ги покажете вашите контроли".

За насоки за ревизорска трага по HIPAA, погледнете: Објасниво редактирање: HIPAA Ревизии.

Ознаката да/не е погодување. Резултатот е доказ.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.