By · Last updated 2026-06-05

Powrót do blogaTechniczne

Problem precyzji Presidio: tylko 22,7%

Benchmark z 2024 roku wykazał, że rozpoznawacz nazwisk osób w Microsoft Presidio osiąga precyzję 22,7% w dokumentach biznesowych — co oznacza, że 77,3% wykryć to fałszywe alarmy.

June 5, 20267 min czytania
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Problem precyzji Presidio: 22,7%

Fałszywe alarmy w wykrywaniu PII powodują realne szkody. Gdy 77,3% tego, co narzędzie oznacza jako „imiona i nazwiska osób”, to nie są prawdziwe osoby, narzędzie nie chroni prywatności. Niszczy dane.

Benchmark z 2024 roku przetestował domyślny model NER Microsoft Presidio na dokumentach biznesowych. Test obejmował raporty finansowe, pisma do klientów, dokumenty produktowe i zgłoszenia do działu wsparcia. Wynik: 22,7% precyzji dla wykrywania nazwisk.

To liczba uderzająca. Na 100 oznaczonych elementów 23 to prawdziwe imiona i nazwiska osób. Pozostałe 77 to fałszywe alarmy — etykiety produktów, nazwy marek lub nazwy miast.

Trzy na cztery wykrycia są błędne. To nie jest drobny problem z kalibracją. To narzędzie, które nie nadaje się do pracy z dokumentami biznesowymi.

Dlaczego tak się dzieje

Presidio domyślnie używa modelu spaCy en_core_web_lg. Ten model uczył się na tekstach informacyjnych. W wiadomościach większość właściwych rzeczowników to prawdziwi ludzie lub miejsca.

Dokumenty biznesowe są inne.

Etykiety produktów wyglądające jak nazwiska osób. „Zapisy wysyłki Apple iPhone 15 Pro” zostają oznaczone jako OSOBA. Podobnie „Samsung Galaxy Tab” i „wdrożenie Cisco Meraki”.

Terminy firmowe z częściami podobnymi do imion. W sformułowaniu „wyniki Johnson Controls” słowo „Johnson” jest oznaczane jako OSOBA. „Portfel Goldman Sachs” wywołuje ten sam błąd.

Nazwy lokalizacji wyzwalające wykrywanie osób. „Projekt Victoria Harbour” oznacza „Victoria” jako OSOBA. „Hub Santiago” oznacza „Santiago” w ten sam sposób.

Model nie ma kontekstu pozwalającego odróżnić „Apple” (firma) od „Apple Smith” (osoba). Ta luka jest źródłem większości fałszywych alarmów. Teksty informacyjne nauczyły go traktować właściwe rzeczowniki jako ludzi lub miejsca. Dokumenty biznesowe łamią tę regułę na każdym kroku.

Skutki dla dalszego przetwarzania

Firma analityczna używała Presidio do czyszczenia ankiet klientów przed ich udostępnieniem. Audyt ujawnił cztery problemy. Po pierwsze, w 40% ankiet etykiety produktów zostały błędnie usunięte. Po drugie, z każdej odpowiedzi usunięto nazwy miast. Po trzecie, wzmianki o markach zostały wyczyszczone ze zbioru analitycznego. Po czwarte, sentyment dotyczący konkretnych produktów nie mógł być odczytany.

Zespół analityczny otrzymał zredagowany tekst z usuniętymi wszystkimi odniesieniami do produktów. Ankieta pierwotnie wymieniała iPhone Pro i ładowarkę Apple. To znaczenie znikło.

Firma nie chroniła prywatności lepiej. Niszczyła dane bez uzyskania zgodności. Po audycie Presidio zostało zastąpione.

Siehe nasze podsumowanie zgodności, aby dowiedzieć się, jak jakość wykrywania wpływa na sytuację regulacyjną.

Lepsze podejście: wykrywanie hybrydowe

Problem nie jest unikatowy dla Presidio. NER na poziomie tokenów bez kontekstu zawsze będzie miał ten problem. Rozwiązaniem jest wykrywanie uwzględniające kontekst.

Dlaczego transformatory pomagają: Model taki jak XLM-RoBERTa odczytuje całe zdanie. „Apple ogłosiło wyniki” → Apple to firma. „Apple Smith dołączył do zespołu” → Apple to imię. Kontekst mówi, co jest czym.

Poprawia to precyzję przy zachowaniu wysokiego odzysku. Zob. poniższe porównanie.

PodejściePrecyzjaOdzysk
Domyślny NER Presidio22,7%~85%
Tylko wyrażenia regularne~95%~40%
Hybrydowe (Regex + NLP + Transformer)~85%~80%

Podejście hybrydowe osiąga 85% precyzji. Oznacza to 15% fałszywych alarmów. Znacznie lepiej niż 77,3%. Dla dokumentów biznesowych ta różnica ma znaczenie.

Stos hybrydowy składa się z czterech kroków:

  1. Warstwa wyrażeń regularnych: Wyszukuje ustrukturyzowane identyfikatory — e-maile, numery telefonów, SSN, IBAN. Formaty są stałe, więc fałszywe alarmy są rzadkie. Uruchamia się jako pierwsza.

  2. Warstwa NLP (spaCy): Standardowy NER dla osób, firm i miejsc. Wysoki odzysk, niższa precyzja.

  3. Warstwa transformatorów (XLM-RoBERTa): Ponownie ocenia każdy wynik NLP przy użyciu pełnego kontekstu zdania. „Apple” w kontekście produktu traci swój wynik encji. „Jan” w kontekście skargi zyskuje go.

  4. Próg pewności: Do wyjścia przechodzą tylko trafienia powyżej ustalonej wartości. Podnieś próg dla przypadków użycia analitycznego. Obniż dla de-identyfikacji HIPAA.

Wyniki po zmianie podejścia

Firma analityczna przeszła na wykrywanie hybrydowe. Efekty były wyraźne. Odsetek fałszywych alarmów dla etykiet produktów spadł z 40% do 3%. Fałszywe alarmy dla nazw miast spadły niemal do zera. Odzysk prawdziwej tożsamości utrzymał się na poziomie ~82%, nieznacznie niżej niż 85%, ale precyzja znacząco wzrosła.

Ankiety stały się ponownie użyteczne. „iPhone”, „Apple”, „Samsung” i „Chicago” pozostały w tekście. Imiona i nazwiska klientów w kontekstach skarg zostały poprawnie usunięte.

Wykrywanie hybrydowe wymaga większej mocy obliczeniowej. Dla dużych zadań czasy przebiegu są nieco dłuższe. Dla większości zastosowań biznesowych zysk na dokładności jest tego wart. Firma mogła ponownie przeprowadzać analizy. Taki był cel danych ankietowych.

Przeczytaj o naszym podejściu do wykrywania w przeglądzie bezpieczeństwa.

Kiedy wysoki wskaźnik fałszywych alarmów jest akceptowalny

Niektóre przypadki preferują odzysk nad precyzją.

HIPAA Safe Harbor: Przeoczenie prawdziwego trafienia to naruszenie. 10% wskaźnik fałszywych alarmów jest dopuszczalny, jeśli prawdziwe PHI nigdy nie zostaje przeoczone. Nadmierne usuwanie jest bezpieczniejsze niż niewystarczające.

Przegląd prawny: Przeoczenie chronionego kontaktu może oznaczać zrzeczenie się przywileju. Fałszywe alarmy wymagają przeglądu, ale nie tworzą odpowiedzialności.

Analityka biznesowa: Nadmierne usuwanie niszczy dane bez zysku dla zgodności. Precyzja ma tu większe znaczenie. Użyj podejścia hybrydowego z wysokim progiem pewności. Zachowuje to etykiety marek i nazwy miejscowości. Tylko prawdziwe imiona i nazwiska osób zostają usunięte.

Właściwa równowaga zależy od przypadku użycia. Narzędzia pozwalające ustawić próg dają kontrolę. Żadne pojedyncze ustawienie domyślne nie sprawdza się w każdym kontekście.

Siehe nasze FAQ w kwestii progów i trybów wykrywania.

Podsumowanie

Precyzja na poziomie 22,7% oznacza, że 3 na 4 wykrycia są błędne. W dokumentach biznesowych sprawia to, że dane wyjściowe nie nadają się do analizy. Daje też fałszywe poczucie zgodności.

Wykrywanie hybrydowe rozwiązuje ten problem. Łączy wyrażenia regularne, NLP i ocenianie przez transformatory. Dane pozostają użyteczne po anonimizacji. Prawdziwe imiona i nazwiska osób zostają usunięte. Etykiety marek, nazwy miejscowości i identyfikatory produktów pozostają.

Jeśli opuściłeś Presidio z powodu fałszywych alarmów, to jest właściwa droga naprzód. Nie nowa konfiguracja tego samego modelu. Inna architektura zbudowana dla kontekstów dokumentów biznesowych.

Źródła

Priva PII Benchmark 2024: Ocena precyzji Presidio. ZWERYFIKOWANE-ZEWNĘTRZNIE.

Microsoft Presidio: Obsługiwane encje i architektura modelu. ZWERYFIKOWANE-ZEWNĘTRZNIE.

spaCy: Dane treningowe en_core_web_lg i ograniczenia. ZWERYFIKOWANE-ZEWNĘTRZNIE.

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.