By · Last updated 2026-06-05

Povratak na BlogTehnički

Zasto binarna detekcija osobnih podataka ne zadovoljava zahtjeve uskladjenosti

Zastavice detektirano/nije detektirano ne mogu podrzati obranjive odluke o redakciji. Bodovanje pouzdanosti pretvara anonimizaciju osobnih podataka iz binarnog nagadjanja u revizijsku kontrolu uskladjenosti.

June 5, 20268 min čitanja
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Zasto binarna detekcija osobnih podataka ne zadovoljava zahtjeve uskladjenosti

Azurirano za 2026.

Svaki alat za detekciju osobnih podataka suocava se s jednim tezkim problemom. Isti niz moze biti osobni podatak na jednom mjestu, a ne na drugom.

"John" u datoteci kupca je subjekt podataka. "John" u povijesnom radu o Johnu F. Kennedyju nije. Devetoznamenkovasti broj u medicinskom zapisu je HIPAA kod. Istih devet znamenki u sifri proizvoda nije.

Zastavica da/ne ne moze to rijesiti. Forsira dva losa izbora: redaktirati sve nizove koji bi mogli biti osobni podaci ili redaktirati samo sigurne podudarnosti. Oboje ne uspijevaju u pravu, gdje svaka odluka mora biti jasna i dokumentirana.

Ocjena po entitetu od 0 do 100 nudi treci put. Pokrenuje tierirane pravila, redove za pregled od strane ljudi i potpune revizijske zapise.

Ogranicenje zastavica da/ne

Kontekst mijenja znacenje podataka. Dvije datoteke mogu sadrzavati isti niz. U jednoj je osobni podatak. U drugoj nije. Zastavica ne moze to pokazati. Broj moze.

Samo s zastavicom, vase dvije mogucnosti su lose. Prekomjerna redakcija ubija vrijednost dokumenta. Nedovoljna redakcija stvara pravni rizik. Nijedno ne izdrzava na sudu.

Pravno otkrivanje: zasto su bodovi potrebni

Pravno otkrivanje ima pravila koja cine bodovnu detekciju obaveznom.

Problem prekomjerne redakcije. Redaktiranje imena odvjetnika ili sudskih citata ostecuje dokaze. Sudovi su kaznili odvjetnike za prekomjernu redakciju. Ista sudska praksa koja pokriva nedovoljnu redakciju pokriva i ovu.

Problem nedovoljne redakcije. Propustanje stvarnih osobnih podataka stvara rizik. To ukljucuje povrede privatnosti klijenata, prituzbe odvjetnickim komorama i u nekim mjestima kaznene optuzbe.

Potreba za objasnjenje svake odluke. Kada sud pita zasto je stavka redaktirana, odvjetnici moraju to objasniti. "Alat je to oznacio" nije dovoljno. "Alat je ovo ocijenio s 94% kao broj socijalnog osiguranja. Nase pravilo automatski redaktira iznad 85%." To je dovoljno.

Zastavica da/ne ne moze dati taj odgovor. Bodovni alat s postavljenim pravilima moze. Pogledajte takodjer: Obrana redakcija: AI bodovi na sudu.

Trostupanjski sustav pregleda

Najucinkovitije postavljanje koristi tri razine na temelju rezultata entiteta.

Razina 1 - Automatski (iznad 85%):

  • Stavke koje odgovaraju formatima visoke pouzdanosti (SSN, IBAN, MRN)
  • Automatski redaktirane bez koraka od strane covjeka
  • Evidencija biljezi vrstu entiteta, rezultat, metodu i vrijeme
  • Primjer: "571-44-9283" pri 97% kao SSN - automatski redaktirano

Razina 2 - Pregled od strane covjeka (50-85%):

  • Stavke koje bi mogle biti osobni podaci ali trebaju procjenu
  • Poslano recenzentu za prihvacanje, odbijanje ili reklasifikaciju
  • Evidencija biljezi vrstu entiteta, rezultat, ID recenzenta, odluku i vrijeme
  • Primjer: "John Davis" u tehnickom dokumentu pri 67% - recenzent potvrdjuje da je ime - redaktirano

Razina 3 - Prijedlog samo (ispod 50%):

  • Stavke niske pouzdanosti prikazane kao savjeti
  • Ne redaktiraju se automatski; recenzent moze djelovati ili preskociti
  • Evidencija biljezi vrstu entiteta, rezultat i izbor recenzenta
  • Primjer: "Smith" u dokumentu o proizvodu pri 42% - recenzent pronalazi da je naziv tvrtke - nije redaktirano

Samo Razina 2 treba rad od strane covjeka. Sve tri razine produciraju revizijske zapise.

Kako se bodovi grade

Alati za detekciju osobnih podataka kombiniraju signale za produciranje jednog broja po entitetu.

Regex obrasci. Tocno podudaranje u formatu SSN-a dobiva visoki osnovni rezultat. Djelomicno podudaranje dobiva nizi.

Izlaz modela. Modeli za prepoznavanje imenskih entiteta dodjeljuju vjerojatnost po klasi. Rezultat 0,93 za PERSON daje visoko pouzdani rezultat.

Kontekstualni signali. Tekst oko entiteta prilagodjaava rezultat. "Moj SSN je 571-44-9283" povecava ga. "Sifra proizvoda 571-44-9283" smanjuje ga.

Pravila ansambla. Sustavi kombiniraju regex, model i kontekstualne signale s postavljenim tezinama. Konacni broj odrazava sve dokaze.

Taj broj pokrece svaku odluku o pragu u vasem tijeku rada. Za vise o laznim pozitivima iz alata da/ne, pogledajte: Porez na lazne pozitive u alatima za osobne podatke.

Zahtjevi osiguranja: stvarni primjer

Datoteke osiguranja mijesaju jasne osobne podatke - ime nositelja police, adresu, SSN - s kontekstualno ovisnim podacima: imenima svjedoka, nazivima tvrtki, potpisima procjenitelja.

Alat da/ne ili redaktira sva imena (pogresno za tvrtke) ili propusta imena svjedoka (rizik). Bodovni alat obradjuje svaku stavku zasebno:

  • SSN s oznakom "SSN nositelja police" pri 96% - automatski redaktirano
  • Ime nositelja police oznaceno PERSON pri 91% - automatski redaktirano
  • Izvodjac oznacen ORG pri 78% - pregledano - recenzent odbija redakciju
  • Ime svjedoka oznaceno PERSON pri 82% - pregledano - recenzent prihvaca
  • Ime procjenitelja oznaceno PERSON pri 71% - pregledano - recenzent prihvaca (podaci trece strane)

Svaka odluka ima numericku osnovu. Revizijski trag je potpun.

Izgradnja zapisa o uskladjenosti

Za GDPR clanak 5(1)(f) i HIPAA sigurnosno pravilo, bodovni alati generiraju zapise sami od sebe.

Revizijski zapisi na razini entiteta biljeze vrstu entiteta, rezultat, vrstu odluke (automatska ili rucna), ID recenzenta i vrijeme. Izvoze se kao CSV za upite tijela za zastitu podataka.

Zapisi praga dokumentiraju aktualne postavke i svaku promjenu. Svaka promjena ukljucuje tko ju je napravio, kada i zasto. Ovo pokazuje upravljanu, namjernu politiku.

Statisticka izvjesca pokrivaju stope detekcije po vrsti entiteta, stope pregleda Razine 2 i stope zanemarivanja. Odgovaraju tijelima za zastitu podataka koja pitaju "pokazite nam vase kontrole".

Za smjernice o revizijskom tragu HIPAA-e, pogledajte: Objasnjiva redakcija: Revizije HIPAA-e.

Zastavica da/ne je nagadjanje. Rezultat je dokaz.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.