By · Last updated 2026-06-05

Tagasi BlogisseTehniline

Miks binaarset isikuandmete tuvastamine vastavusele ebaõnnestub

Tuvastatud/mittetuvastatud lipud ei suuda toetada kaitstavaid moonutamisotsuseid. Usalduse hindamine muudab isikuandmete anonüümistamise binaarist arvamusest auditeeritavaks vastavuskontrolliks.

June 5, 20268 min lugemist
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Miks binaarne isikuandmete tuvastamine vastavusele ebaõnnestub

Uuendatud 2026. aastal

Iga isikuandmete tööriist seisab silmitsi ühe raske probleemiga. Sama sõne võib olla isikuandmed ühes kohas ja mitte teises.

"Jaan" klienditoimikus on andmesubjekt. "Jaan" ajalooartiklis John F. Kennedy kohta ei ole. Üheksaekoheline arv meditsiinilises andmikus on HIPAA kood. Samad üheksa numbrit tootekoodis ei ole.

Jah/ei lipp ei suuda sellega hakkama saada. See sunnib kahele halvale valikule: moonutada kõik sõned, mis võivad olla isikuandmed, või moonutada ainult kindlad vasted. Mõlemad ebaõnnestuvad seaduses, kus iga otsus peab olema selge ja dokumenteeritud.

Per-üksuse skoor 0-st 100-ni pakub kolmandat teed. See juhib astmelisi reegleid, inimese ülevaatuse järjekordi ja täielikke auditeerimiskirjeid.

Jah/ei lippude piirang

Kontekst muudab andmete tähendust. Kaks faili võivad sisaldada sama sõne. Ühes on see isikuandmed. Teises ei ole. Lipp ei suuda seda näidata. Arv saab.

Ainult lipuga on teil kaks halba valikut. Üle-moonutamine hävitab dokumendi väärtuse. Ala-moonutamine loob juriidilise riski. Kumbki ei pea kohtus vastu.

Juriidiline avastamine: miks skoore on vaja

Juriidilisel avastamisel on reeglid, mis muudavad skooritud tuvastamise hädavajalikuks.

Üle-moonutamise probleem. Advokaatide nimede või kohtu tsitaatide moonutamine kahjustab tõendeid. Kohtud on advokaate trahvinud üle-moonutamise eest. Sama kohtupraktika, mis katab ala-moonutamise, katab ka seda.

Ala-moonutamise probleem. Tõelise isikuandmete vahelejätmine tekitab riski. See hõlmab kliendi privaatsuse rikkumisi, advokaadikoja kaebusi ja mõnes kohas kriminaalkaristusi.

Vajadus selgitada iga otsust. Kui kohus küsib, miks üksus moonutati, peavad advokaadid seda selgitama. "Tööriist tähistas seda" ei ole piisav. "Tööriist hindas selle 94%-le kui sotsiaalkindlustuse numbrit. Meie reegel moonutab automaatselt üle 85%." See on piisav.

Jah/ei lipp ei suuda seda vastust anda. Skooritud tööriist kindlate reeglitega saab. Vaadake ka: Moonutuste kaitsmine: AI skoorid kohtus.

Kolmetasandiline ülevaatussüsteem

Kõige tõhusam seadistus kasutab kolme tasandit üksuse skoori alusel.

Tasand 1 - Automaatne (üle 85%):

  • Üksused, mis vastavad kõrge kindlusega vormingutele (SSN, IBAN, MRN)
  • Moonutatakse automaatselt ilma inimese sammuta
  • Logi registreerib üksuse tüübi, skoori, meetodi ja aja
  • Näide: "571-44-9283" 97%-l kui SSN - moonutatud automaatselt

Tasand 2 - Inimese ülevaatus (50-85%):

  • Üksused, mis võivad olla isikuandmed, kuid vajavad otsust
  • Saadetud ülevaatajale aktsepteerimiseks, tagasilükkamiseks või ümberliigitamiseks
  • Logi registreerib üksuse tüübi, skoori, ülevaataja ID, otsuse ja aja
  • Näide: "Jaan Tamm" tehnikas dokumendis 67%-l - ülevaataja kinnitab, et see on nimi - moonutatud

Tasand 3 - Ainult soovitus (alla 50%):

  • Madala kindlusega üksused kuvatakse vihjete kujul
  • Ei moonutata automaatselt; ülevaataja võib tegutseda või vahele jätta
  • Logi registreerib üksuse tüübi, skoori ja ülevaataja valiku
  • Näide: "Tamm" tootedokumendis 42%-l - ülevaataja leiab, et see on ettevõtte nimi - moonutamata

Ainult tasand 2 vajab inimese tööd. Kõik kolm tasandit toodavad auditeerimiskirjeid.

Kuidas skoore ehitatakse

Isikuandmete tööriistad kombineerivad signaale ühe numbri tootmiseks üksuse kohta.

Regex mustrid. Täpne SSN-vormingu vaste saab kõrge baasskoori. Osaline vaste saab madalama.

Mudeli väljund. Nimestatud üksuste mudelid määravad tõenäosuse klassi kohta. Skoor 0,93 PERSON jaoks annab kõrge kindlusega tulemuse.

Konteksti signaalid. Üksuse ümbritsev tekst kohandab skoori. "Minu SSN on 571-44-9283" tõstab seda. "Tootekood 571-44-9283" alandab seda.

Ansamblite reeglid. Süsteemid kombineerivad regex, mudeli ja konteksti signaale kindlate kaaludega. Lõplik number peegeldab kõiki tõendeid.

See number juhib iga lävistotsuse teie töövoos. Lisateabe saamiseks jah/ei tööriistade valepositiivsetest tulemustest vaadake: Isikuandmete tööriistade valepositiivne maks.

Kindlustuse nõuded: reaalne näide

Kindlustusfailid segavad selget isikuandmeid - poliisivõtja nimi, aadress, SSN - kontekstisõltuva andmetega: tunnistajate nimed, ettevõtete nimed, hindaja allkirjad.

Jah/ei tööriist kas moonutab kõiki nimesid (vale ettevõtete jaoks) või jätab tunnistajate nimed kahe silma vahele (risk). Skooritud tööriist käsitleb iga üksust eraldi:

  • SSN sildiga "poliisivõtja SSN" 96%-l - moonutatud automaatselt
  • Poliisivõtja nimi sildiga PERSON 91%-l - moonutatud automaatselt
  • Töövõtja ettevõte sildiga ORG 78%-l - üle vaadatud - ülevaataja lükkab moonutamise tagasi
  • Tunnistaja nimi sildiga PERSON 82%-l - üle vaadatud - ülevaataja aktsepteerib
  • Hindaja nimi sildiga PERSON 71%-l - üle vaadatud - ülevaataja aktsepteerib (kolmanda osapoole andmed)

Igal otsusel on numbriline alus. Auditeerimisraja on täielik.

Vastavuskirjete ehitamine

GDPR artikkel 5(1)(f) ja HIPAA turvareegli jaoks genereerivad skooritud tööriistad kirjed iseseisvalt.

Üksuse tasemel auditeerimiskirjed jäädvustavad üksuse tüübi, skoori, otsuse tüübi (automaatne või käsitsi), ülevaataja ID ja aja. Need eksporditakse CSV-na andmekaitseasutuse päringute jaoks.

Lävistuskirjed dokumenteerivad praeguseid seadeid ja iga muutust. Iga muutus sisaldab, kes selle tegi, millal ja miks. See näitab hallatavat, tahtlikku poliitikat.

Statistika aruanded katavad tuvastamismäärasid üksuse tüübi järgi, tasand 2 ülevaatamismäärasid ja tühistamismäärasid. Need vastavad andmekaitseametile, kes küsib "näidake meile oma kontrolle".

HIPAA auditeerimisraja juhiste jaoks vaadake: Selgitatav moonutamine: HIPAA auditid.

Jah/ei lipp on arvamus. Skoor on tõend.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.