By · Last updated 2026-06-05

Späť na blogTechnické

Preco binárna detekcia PII zlyhá pri dodržiavaní predpisov

Stav detekovaný/nedetekovaný nestací pre kontexty súladu, ktoré vyžadujú udské úsudok. Skórovanie dôvery mení anonymizáciu PII z binárneho odhadu na auditovatelný nástroj súladu.

June 5, 20268 min čítania
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Preco binárna detekcia PII zlyhá pri dodržiavaní predpisov

Aktualizované pre rok 2026

Každý nástroj PII cielí jeden ažký problém. Ten istý retazec môže by osobnými dátami na jednom mieste a na inom nie.

"Ján" v súbore zákazníka je dotknutá osoba. "Ján" v historickom diele o Jánovi F. Kennedym nie je. Devascíferné císlo v zdravotnom zázname je kód HIPAA. Rovnakých dev ciferníc v kóde produktu nie je.

Príznakový systém áno/nie s tým nedokáže pracova. Núti vás na dve zlé voby: redigova všetky retazce, ktoré by mohli by PII, alebo redigova len isté zhody. Oboje zlyháva v práve, kde každé rozhodnutie musí by jasné a zdokumentované.

Skóre na entitu od 0 do 100 ponúka tretiu cestu. Riadi vrstvené pravidlá, fronty udského preskúmania a úplné auditové záznamy.

Obmedzenie príznakov áno/nie

Kontext mení význam dát. Dva súbory môžu obsahova rovnaký retazec. V jednom sú osobné dáta. V druhom nie sú. Príznak to nedokáže ukáza. Císlo môže.

Len s príznakom máte dve zlé možnosti. Nadmerná redakcia nicia hodnotu dokumentu. Nedostatocná redakcia vytvára právne riziko. Ani jedno neobstojí pred súdom.

Právne zisovanie: Preco sú skóre potrebné

Právne zisovanie má pravidlá, ktoré robia skórovanú detekciu nevyhnutnou.

Problém nadmernej redakcie. Redigovanie mien advokátov alebo citácií súdu poškodzuje dôkazy. Súdy pokutovali advokátov za nadmernú redakciu. Rovnaká judikatúra, ktorá pokrýva nedostatocnú redakciu, pokrýva aj toto.

Problém nedostatocnej redakcie. Vynechanie skutocnej PII vytvára riziko. To zahrnuje porušenia súkromia klientov, saznosti bardov a na niektorých miestach trestné obvinenia.

Potreba vysvetli každé rozhodnutie. Ked súd sa opýta, preco bola položka redigovaná, advokáti musia vysvetli. "Nástroj to oznacil" nestací. "Nástroj toto skóroval na 94 % ako cislo sociálneho poistenia. Naše pravidlo automaticky rediguje nad 85 %." To stací.

Príznak áno/nie nemôže da túto odpoved. Skórovaný nástroj s nastavenými pravidlami môže. Pozrite si tiež: Obhajoba redakcií: skóre AI na súde.

Trojvrstvový systém preskúmania

Najúcinnejšia konfigurácia používa tri vrstvy na základe skóre entity.

Vrstva 1 - Automatická (nad 85 %):

  • Položky zodpovedajúce formátom vysokej istoty (SSN, IBAN, MRN)
  • Automaticky redigované bez udského kroku
  • Log zaznamenáva typ entity, skóre, metódu a cas
  • Príklad: "571-44-9283" na 97 % ako SSN - automaticky redigované

Vrstva 2 - Udské preskúmanie (50-85 %):

  • Položky, ktoré môžu by PII, ale vyžadujú posúdenie
  • Odoslané recenzentovi na prijatie, odmietnutie alebo pretriedenie
  • Log zaznamenáva typ entity, skóre, ID recenzenta, rozhodnutie a cas
  • Príklad: "Ján Novák" v technickom dokumente na 67 % - recenzent potvrdí, že ide o meno - redigované

Vrstva 3 - Iba návrh (pod 50 %):

  • Položky s nízkou istotou zobrazené ako tipy
  • Nie sú automaticky redigované; recenzent môže kona alebo preskoci
  • Log zaznamenáva typ entity, skóre a vobu recenzenta
  • Príklad: "Novák" v dokumente o produkte na 42 % - recenzent zistí, že ide o meno firmy - neredigované

Len Vrstva 2 vyžaduje udskú prácu. Všetky tri vrstvy produkujú auditové záznamy.

Ako sa skóre budujú

Nástroje PII kombinujú signály na výrobu jedného císla na entitu.

Regexové vzory. Presná zhoda formátu SSN dostane vysoké základné skóre. Ciastocná zhoda dostane nižšie.

Výstup modelu. Modely pomenovaných entít prideujú pravdepodobnos na triedu. Skóre 0,93 pre PERSON dáva vysoko istý výsledok.

Kontextové signály. Text okolo entity upravuje skóre. "Moje SSN je 571-44-9283" ho zvyšuje. "Kód produktu 571-44-9283" ho znižuje.

Pravidlá ensemble. Systémy kombinujú signály regexu, modelu a kontextu s nastavenými váhami. Výsledné císlo odráža všetky dôkazy.

Toto císlo riadi každé prahové rozhodnutie vo vašom pracovnom postupe. Pre viac o falošných pozitívach z nástrojov áno/nie pozrite: The False Positive Tax on PII Tools.

Poistné nároky: Skutocný príklad

Poisovacie súbory mixujú jasnú PII - meno poistenca, adresu, SSN - s dátami závislými od kontextu: mená svedkov, mená firiem, podpisy likvidátorov.

Nástroj áno/nie bud rediguje všetky mená (nesprávne pre firmy) alebo vynechá mená svedkov (riziko). Skórovaný nástroj každú položku spracuje individuálne:

  • SSN s nálepkou "SSN poistenca" na 96 % - automaticky redigované
  • Meno poistenca oznacené PERSON na 91 % - automaticky redigované
  • Firma dodávatea oznacená ORG na 78 % - preskúmaná - recenzent odmietne redakciu
  • Meno svedka oznacené PERSON na 82 % - preskúmané - recenzent akceptuje
  • Meno likvidátora oznacené PERSON na 71 % - preskúmané - recenzent akceptuje (dáta tretích strán)

Každé rozhodnutie má numerický základ. Auditovacia stopa je úplná.

Budovanie compliance záznamov

Pre GDPR clanok 5(1)(f) a bezpecnostné pravidlo HIPAA skórované nástroje samy generujú záznamy.

Auditové záznamy na úrovni entity zachytávajú typ entity, skóre, typ rozhodnutia (automatické alebo manuálne), ID recenzenta a cas. Exportujú sa ako CSV pre dopyty orgánov ochrany dát.

Záznamy prahov dokumentujú aktuálne nastavenia a každú zmenu. Každá zmena zahrnuje kto ju urobil, kedy a preco. Toto ukazuje spravovanú, úmyselnú politiku.

Štatistické správy pokrývajú miery detekcie podla typu entity, miery preskúmania Vrstvy 2 a miery prekonaní. Odpovedajú orgánom ochrany dát žiadajúcim "ukážte nám vaše kontroly".

Pre pokyny k auditovej stope HIPAA pozrite: Vysvetlitelná redakcia: audity HIPAA.

Príznak áno/nie je odhad. Skóre je dôkaz.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.