By · Last updated 2026-06-05

Atpakaļ uz BloguTehniskā

Kāpēc bināra PII atklāšana neatbilst atbilstības prasībām

Atklāts/neatklāts karodziņš nav pietiekams atbilstības kontekstiem, kas prasa cilvēka spriedumu. Ticamības novērtēšana pārveido PII anonimizāciju no bināras minēšanas par revidējamu atbilstības kontroli.

June 5, 20268 min lasīšanai
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Kāpēc bināra PII atklāšana neatbilst atbilstības prasībām

Atjaunots 2026. gadam

Katrs PII rīks saskaras ar vienu grūtu problēmu. Viena un tā pati virkne vienā vietā var būt personas dati, bet citā - ne.

"Jānis" klientu failā ir datu subjekts. "Jānis" vēstures rakstā par Jāni Čakstes nav. Deviņciparu skaitlis medicīniskajā ierakstā ir HIPAA kods. Tie paši deviņi cipari produkta kodā nav.

Jā/nē karodziņš to nevar apstrādāt. Tas liek izdarīt divas sliktas izvēles: rediģēt visas virknes, kas varētu būt PII, vai rediģēt tikai drošas atbilstības. Abi neizdodas tiesā, kur katram lēmumam jābūt skaidram un dokumentētam.

Vērtējums no 0 līdz 100 katrai entītijai piedāvā trešo ceļu. Tas virza daudzlīmeņu noteikumus, cilvēka pārskatīšanas rindas un pilnus audita ierakstus.

Jā/nē karodziņu ierobežojums

Konteksts maina datu nozīmi. Divi faili var saturēt vienu un to pašu virkni. Vienā tā ir personas dati. Otrā tā nav. Karodziņš to nevar parādīt. Skaitlis var.

Tikai ar karodziņu jums ir divas sliktas iespējas. Pārrediģēšana iznīcina dokumenta vērtību. Nepietiekama rediģēšana rada juridisko risku. Neviens no tiem neiztur tiesā.

Juridiskā atklāšana: kāpēc ir nepieciešami vērtējumi

Juridiskajai atklāšanai ir noteikumi, kas padara novērtēto atklāšanu par obligātu.

Pārrediģēšanas problēma. Advokātu vārdu vai tiesas citātu rediģēšana bojā pierādījumus. Tiesas ir sodījušas advokātus par pārrediģēšanu. Tā pati judikatūra, kas aptver nepietiekamu rediģēšanu, aptver arī šo.

Nepietiekamas rediģēšanas problēma. Reālas PII izlaišana rada risku. Tas ietver klientu privātuma pārkāpumus, sūdzības advokātu asociācijā un dažos gadījumos kriminālapsūdzības.

Nepieciešamība izskaidrot katru lēmumu. Kad tiesa jautā, kāpēc elements tika rediģēts, advokātiem tas jāizskaidro. "Rīks to atzīmēja" nav pietiekami. "Rīks novērtēja šo ar 94% kā sociālās apdrošināšanas numuru. Mūsu noteikums automātiski rediģē virs 85%." Tas ir pietiekami.

Jā/nē karodziņš nevar sniegt šo atbildi. Novērtēts rīks ar noteiktiem noteikumiem var. Skatiet arī: Rediģēšanas aizstāvēšana: AI vērtējumi tiesā.

Trīs līmeņu pārskatīšanas sistēma

Visefektīvākā iestatīšana izmanto trīs līmeņus, pamatojoties uz entītijas vērtējumu.

1. līmenis - automātisks (virs 85%):

  • Elementi, kas atbilst augstas ticamības formātiem (SSN, IBAN, MRN)
  • Automātiski rediģēti bez cilvēka soļa
  • Žurnāls fiksē entītijas tipu, vērtējumu, metodi un laiku
  • Piemērs: "571-44-9283" ar 97% kā SSN - automātiski rediģēts

2. līmenis - cilvēka pārskatīšana (50-85%):

  • Elementi, kas varētu būt PII, bet prasa sprieduma izdarīšanu
  • Nosūtīts recenzentam pieņemšanai, noraidīšanai vai pārklasificēšanai
  • Žurnāls fiksē entītijas tipu, vērtējumu, recenzenta ID, lēmumu un laiku
  • Piemērs: "Jānis Bērziņš" tehnisku dokumentu ar 67% - recenzents apstiprina, ka tas ir vārds - rediģēts

3. līmenis - tikai ieteikums (zem 50%):

  • Zemas ticamības elementi rādīti kā padomi
  • Nav automātiski rediģēts; recenzents var rīkoties vai izlaist
  • Žurnāls fiksē entītijas tipu, vērtējumu un recenzenta izvēli
  • Piemērs: "Kalniņš" produktu dokumentā ar 42% - recenzents konstatē, ka tā ir uzņēmuma nosaukums - nav rediģēts

Tikai 2. līmenis prasa cilvēka darbu. Visi trīs līmeņi sagatavo audita ierakstus.

Kā tiek veidoti vērtējumi

PII rīki kombinē signālus, lai radītu vienu skaitli katrai entītijai.

Regex modeļi. Precīza SSN formāta atbilstība saņem augstu bāzes vērtējumu. Daļēja atbilstība saņem zemāku.

Modeļa izvade. Nosaukto entītiju modeļi piešķir varbūtību katrai klasei. Vērtējums 0,93 PERSON dod augstas ticamības rezultātu.

Konteksta signāli. Teksts ap entītiju koriģē vērtējumu. "Mans SSN ir 571-44-9283" to palielina. "Produkta kods 571-44-9283" to samazina.

Ansambļa noteikumi. Sistēmas kombinē regex, modeļu un konteksta signālus ar noteiktiem svariem. Galīgais skaitlis atspoguļo visus pierādījumus.

Šis skaitlis virza katru sliekšņa lēmumu jūsu darbplūsmā. Plašāk par viltus pozitīvajiem jā/nē rīkos skatiet: Viltus pozitīvo nodoklis PII rīkos.

Apdrošināšanas prasības: Reāls piemērs

Apdrošināšanas faili sajaucas skaidru PII - polises turētāja vārds, adrese, SSN - ar kontekstuāliem datiem: liecinieku vārdi, uzņēmumu nosaukumi, regulatoru paraksti.

Jā/nē rīks vai nu rediģē visus vārdus (nepareizi uzņēmumiem) vai palaiž garām liecinieku vārdus (risks). Novērtēts rīks apstrādā katru elementu atsevišķi:

  • SSN ar etiķeti "polises turētāja SSN" ar 96% - automātiski rediģēts
  • Polises turētāja vārds atzīmēts PERSON ar 91% - automātiski rediģēts
  • Darbuzņēmēja uzņēmums atzīmēts ORG ar 78% - pārskatīts - recenzents noraida rediģēšanu
  • Liecinieka vārds atzīmēts PERSON ar 82% - pārskatīts - recenzents pieņem
  • Regulatora vārds atzīmēts PERSON ar 71% - pārskatīts - recenzents pieņem (trešās puses dati)

Katram lēmumam ir skaitlisks pamats. Audita taka ir pilnīga.

Atbilstības ierakstu veidošana

VDAR 5. panta 1. punkta f) apakšpunktam un HIPAA drošības noteikumam novērtētie rīki patstāvīgi ģenerē ierakstus.

Entītijas līmeņa audita ieraksti fiksē entītijas tipu, vērtējumu, lēmuma tipu (automātisks vai manuāls), recenzenta ID un laiku. Šie eksportējas kā CSV datu iestādes pieprasījumiem.

Sliekšņu ieraksti dokumentē pašreizējos iestatījumus un katras izmaiņas. Katra izmaiņa ietver, kurš to veica, kad un kāpēc. Tas rāda pārvaldītu, apzinātu politiku.

Statistikas pārskati aptver atklāšanas likmes pēc entītijas tipa, 2. līmeņa pārskatīšanas likmes un pārakstīšanas likmes. Tie atbild datu iestādei, kas lūdz "parādiet mums jūsu kontroles".

HIPAA audita takas norādījumiem skatiet: Izskaidrojama rediģēšana: HIPAA revīzijas.

Jā/nē karodziņš ir minēšana. Vērtējums ir pierādījums.

Avoti

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.