Powrót do blogaTechniczne

Podatek od fałszywych pozytywów: Dlaczego problem...

Zgłoszenie na GitHubie Presidio #1071 dokumentuje systematyczne fałszywe pozytywy.

April 3, 20268 min czytania
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Niewidoczny podatek zgodności

Narzędzia do wykrywania PII są zazwyczaj oceniane pod kątem przypomnienia — jaki procent rzeczywistego PII zostało wykryty przez narzędzie? Ale precyzja — jaki procent wykryć narzędzia to rzeczywiste PII — określa koszty operacyjne korzystania z narzędzia.

System z 95% przypomnieniem i 22,7% precyzją wykrywa 95% rzeczywistego PII, ale na każde wykryte rzeczywiste PII oznacza 3,4 fałszywych pozytywów. W zbiorze danych zawierającym 10 000 rzeczywistych jednostek PII, ten system generuje 10 000 / 0,227 ≈ 44 000 całkowitych wykryć, z czego 34 000 to fałszywe pozytywy wymagające ręcznego przeglądu lub powodujące nadmierne redakcje.

To jest "podatek od fałszywych pozytywów": obciążenie operacyjne nałożone na każdą organizację, która próbuje używać systemu wykrywania PII o wysokim przypomnieniu i niskiej precyzji w skali produkcyjnej. Podatek od fałszywych pozytywów ma bezpośrednie koszty — czas recenzenta ręcznego — oraz koszty pośrednie: nadmiernie redagowane dokumenty zaciemniają istotne informacje, spowalniają przepływy pracy i zmniejszają zaufanie do systemu automatycznego.

Co dokumentuje zgłoszenie Presidio #1071

Dyskusja na GitHubie Microsoft Presidio #1071 (2024) dokumentuje specyficzny i systematyczny wzór fałszywych pozytywów. Rozpoznawacze TFN (Numer Identyfikacji Podatkowej) i PCI z walidacją sum kontrolnych generują wyniki pewności 1.0 — maksymalna pewność — dla numerów, które nie są PII, ale przechodzą algorytm sumy kontrolnej.

Problem projektowy: sprawdzanie słów kontekstowych (weryfikacja, że słowa takie jak "numer identyfikacji podatkowej" lub "TFN" pojawiają się w pobliżu wykrytej jednostki) jest stosowane po kroku sumy kontrolnej, a nie przed. Numery, które przechodzą sumę kontrolną, otrzymują wynik 1.0 niezależnie od kontekstu. W dokumentach zawierających dane numeryczne — arkusze kalkulacyjne finansowe, zbiory danych naukowych, pliki dziennika — to generuje zalew fałszywych pozytywów, które nie mogą być filtrowane tylko na podstawie progu wyniku.

Oddzielny wzór z społeczności Presidio (zgłoszenie GitHub #999): segmentacja słów w języku niemieckim tworzy fałszywe pozytywy dla jednostek nazw i lokalizacji. Niemieckie związki, takie jak "Bundesbehörde" (władza federalna) lub powszechne niemieckie terminy mogą być błędnie segmentowane i wykrywane jako imiona osobowe.

Problem 22,7% precyzji

Alvaro i in. (2024) ocenili domyślne ustawienia Presidio na mieszanych zbiorach danych przedsiębiorstw i znaleźli 22,7% precyzji — co oznacza, że w rzeczywistych dokumentach przedsiębiorstw mniej niż 1 na 4 wykrycia Presidio odpowiada rzeczywistemu PII. Ta liczba jest zgodna z doświadczeniem praktyków w terenie: Presidio dostosowane do przypomnienia generuje nieużyteczny hałas w produkcji.

Badanie z 2024 roku badające metadane obrazowania medycznego DICOM wykazało, że nawet przy score_threshold=0.7, 38 z 39 obrazów DICOM nadal miało fałszywe pozytywne jednostki. Próg, który eliminuje fałszywe pozytywy dla jednego typu dokumentu, tworzy fałszywe negatywy dla innego.

Problem precyzji nie jest unikalny dla Presidio — odzwierciedla inherentną trudność w budowaniu wykrywacza PII o wysokim przypomnieniu, który osiąga również wysoką precyzję w różnych typach dokumentów, językach i formatach danych. Wyzwanie polega na tym, że każdy stały próg reprezentuje kompromis: wysoki próg zmniejsza fałszywe pozytywy, ale zwiększa fałszywe negatywy; niski próg zwiększa przypomnienie, ale inflatuje fałszywe pozytywy.

Rozwiązanie uwzględniające kontekst

Alternatywą dla dostosowywania progów jest ocenianie pewności uwzględniające kontekst. Zamiast przypisywać pewność wyłącznie na podstawie dopasowania wzoru jednostki, ocenianie uwzględniające kontekst zwiększa pewność, gdy słowa kontekstowe pojawiają się w pobliżu dopasowania i tłumi fałszywe pozytywy, gdy kontekst jest nieobecny.

Dla wykrywania TFN: wynik jest zwiększany, gdy "numer identyfikacji podatkowej", "TFN" lub "australijski podatek" pojawia się w konfigurowalnym oknie. Numer przechodzący sumę kontrolną TFN bez pobliskich słów kontekstowych otrzymuje obniżony wynik pewności, który spada poniżej progu przeglądu.

Dla fałszywych pozytywów w różnych językach: typy jednostek specyficzne dla niektórych języków (niemiecki identyfikator podatkowy, francuski NIR, australijski TFN) mogą być ograniczone do dokumentów wykrytych jako ten język. Wykrywacz TFN stosowany tylko do dokumentów w języku angielskim i australijskim eliminuje systematyczne fałszywe pozytywy, które występują, gdy ten sam wykrywacz działa na dokumentach niemieckich.

Trzeci poziom hybrydowego wykrywania — modele kontekstowe oparte na transformatorach — dodaje kolejną warstwę: model ocenia pełen kontekst otaczający, aby odróżnić prawdziwe imię i nazwisko ("John Smith, ID pacjenta 12345") od fałszywego pozytywu (identyfikator produktu, który przypadkowo pasuje do wzoru nazwy).

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.