Problem precyzji Presidio: 22,7%
Fałszywe alarmy w wykrywaniu PII powodują realne szkody. Gdy 77,3% tego, co narzędzie oznacza jako „imiona i nazwiska osób”, to nie są prawdziwe osoby, narzędzie nie chroni prywatności. Niszczy dane.
Benchmark z 2024 roku przetestował domyślny model NER Microsoft Presidio na dokumentach biznesowych. Test obejmował raporty finansowe, pisma do klientów, dokumenty produktowe i zgłoszenia do działu wsparcia. Wynik: 22,7% precyzji dla wykrywania nazwisk.
To liczba uderzająca. Na 100 oznaczonych elementów 23 to prawdziwe imiona i nazwiska osób. Pozostałe 77 to fałszywe alarmy — etykiety produktów, nazwy marek lub nazwy miast.
Trzy na cztery wykrycia są błędne. To nie jest drobny problem z kalibracją. To narzędzie, które nie nadaje się do pracy z dokumentami biznesowymi.
Dlaczego tak się dzieje
Presidio domyślnie używa modelu spaCy en_core_web_lg. Ten model uczył się na tekstach informacyjnych. W wiadomościach większość właściwych rzeczowników to prawdziwi ludzie lub miejsca.
Dokumenty biznesowe są inne.
Etykiety produktów wyglądające jak nazwiska osób. „Zapisy wysyłki Apple iPhone 15 Pro” zostają oznaczone jako OSOBA. Podobnie „Samsung Galaxy Tab” i „wdrożenie Cisco Meraki”.
Terminy firmowe z częściami podobnymi do imion. W sformułowaniu „wyniki Johnson Controls” słowo „Johnson” jest oznaczane jako OSOBA. „Portfel Goldman Sachs” wywołuje ten sam błąd.
Nazwy lokalizacji wyzwalające wykrywanie osób. „Projekt Victoria Harbour” oznacza „Victoria” jako OSOBA. „Hub Santiago” oznacza „Santiago” w ten sam sposób.
Model nie ma kontekstu pozwalającego odróżnić „Apple” (firma) od „Apple Smith” (osoba). Ta luka jest źródłem większości fałszywych alarmów. Teksty informacyjne nauczyły go traktować właściwe rzeczowniki jako ludzi lub miejsca. Dokumenty biznesowe łamią tę regułę na każdym kroku.
Skutki dla dalszego przetwarzania
Firma analityczna używała Presidio do czyszczenia ankiet klientów przed ich udostępnieniem. Audyt ujawnił cztery problemy. Po pierwsze, w 40% ankiet etykiety produktów zostały błędnie usunięte. Po drugie, z każdej odpowiedzi usunięto nazwy miast. Po trzecie, wzmianki o markach zostały wyczyszczone ze zbioru analitycznego. Po czwarte, sentyment dotyczący konkretnych produktów nie mógł być odczytany.
Zespół analityczny otrzymał zredagowany tekst z usuniętymi wszystkimi odniesieniami do produktów. Ankieta pierwotnie wymieniała iPhone Pro i ładowarkę Apple. To znaczenie znikło.
Firma nie chroniła prywatności lepiej. Niszczyła dane bez uzyskania zgodności. Po audycie Presidio zostało zastąpione.
Siehe nasze podsumowanie zgodności, aby dowiedzieć się, jak jakość wykrywania wpływa na sytuację regulacyjną.
Lepsze podejście: wykrywanie hybrydowe
Problem nie jest unikatowy dla Presidio. NER na poziomie tokenów bez kontekstu zawsze będzie miał ten problem. Rozwiązaniem jest wykrywanie uwzględniające kontekst.
Dlaczego transformatory pomagają: Model taki jak XLM-RoBERTa odczytuje całe zdanie. „Apple ogłosiło wyniki” → Apple to firma. „Apple Smith dołączył do zespołu” → Apple to imię. Kontekst mówi, co jest czym.
Poprawia to precyzję przy zachowaniu wysokiego odzysku. Zob. poniższe porównanie.
| Podejście | Precyzja | Odzysk |
|---|---|---|
| Domyślny NER Presidio | 22,7% | ~85% |
| Tylko wyrażenia regularne | ~95% | ~40% |
| Hybrydowe (Regex + NLP + Transformer) | ~85% | ~80% |
Podejście hybrydowe osiąga 85% precyzji. Oznacza to 15% fałszywych alarmów. Znacznie lepiej niż 77,3%. Dla dokumentów biznesowych ta różnica ma znaczenie.
Stos hybrydowy składa się z czterech kroków:
-
Warstwa wyrażeń regularnych: Wyszukuje ustrukturyzowane identyfikatory — e-maile, numery telefonów, SSN, IBAN. Formaty są stałe, więc fałszywe alarmy są rzadkie. Uruchamia się jako pierwsza.
-
Warstwa NLP (spaCy): Standardowy NER dla osób, firm i miejsc. Wysoki odzysk, niższa precyzja.
-
Warstwa transformatorów (XLM-RoBERTa): Ponownie ocenia każdy wynik NLP przy użyciu pełnego kontekstu zdania. „Apple” w kontekście produktu traci swój wynik encji. „Jan” w kontekście skargi zyskuje go.
-
Próg pewności: Do wyjścia przechodzą tylko trafienia powyżej ustalonej wartości. Podnieś próg dla przypadków użycia analitycznego. Obniż dla de-identyfikacji HIPAA.
Wyniki po zmianie podejścia
Firma analityczna przeszła na wykrywanie hybrydowe. Efekty były wyraźne. Odsetek fałszywych alarmów dla etykiet produktów spadł z 40% do 3%. Fałszywe alarmy dla nazw miast spadły niemal do zera. Odzysk prawdziwej tożsamości utrzymał się na poziomie ~82%, nieznacznie niżej niż 85%, ale precyzja znacząco wzrosła.
Ankiety stały się ponownie użyteczne. „iPhone”, „Apple”, „Samsung” i „Chicago” pozostały w tekście. Imiona i nazwiska klientów w kontekstach skarg zostały poprawnie usunięte.
Wykrywanie hybrydowe wymaga większej mocy obliczeniowej. Dla dużych zadań czasy przebiegu są nieco dłuższe. Dla większości zastosowań biznesowych zysk na dokładności jest tego wart. Firma mogła ponownie przeprowadzać analizy. Taki był cel danych ankietowych.
Przeczytaj o naszym podejściu do wykrywania w przeglądzie bezpieczeństwa.
Kiedy wysoki wskaźnik fałszywych alarmów jest akceptowalny
Niektóre przypadki preferują odzysk nad precyzją.
HIPAA Safe Harbor: Przeoczenie prawdziwego trafienia to naruszenie. 10% wskaźnik fałszywych alarmów jest dopuszczalny, jeśli prawdziwe PHI nigdy nie zostaje przeoczone. Nadmierne usuwanie jest bezpieczniejsze niż niewystarczające.
Przegląd prawny: Przeoczenie chronionego kontaktu może oznaczać zrzeczenie się przywileju. Fałszywe alarmy wymagają przeglądu, ale nie tworzą odpowiedzialności.
Analityka biznesowa: Nadmierne usuwanie niszczy dane bez zysku dla zgodności. Precyzja ma tu większe znaczenie. Użyj podejścia hybrydowego z wysokim progiem pewności. Zachowuje to etykiety marek i nazwy miejscowości. Tylko prawdziwe imiona i nazwiska osób zostają usunięte.
Właściwa równowaga zależy od przypadku użycia. Narzędzia pozwalające ustawić próg dają kontrolę. Żadne pojedyncze ustawienie domyślne nie sprawdza się w każdym kontekście.
Siehe nasze FAQ w kwestii progów i trybów wykrywania.
Podsumowanie
Precyzja na poziomie 22,7% oznacza, że 3 na 4 wykrycia są błędne. W dokumentach biznesowych sprawia to, że dane wyjściowe nie nadają się do analizy. Daje też fałszywe poczucie zgodności.
Wykrywanie hybrydowe rozwiązuje ten problem. Łączy wyrażenia regularne, NLP i ocenianie przez transformatory. Dane pozostają użyteczne po anonimizacji. Prawdziwe imiona i nazwiska osób zostają usunięte. Etykiety marek, nazwy miejscowości i identyfikatory produktów pozostają.
Jeśli opuściłeś Presidio z powodu fałszywych alarmów, to jest właściwa droga naprzód. Nie nowa konfiguracja tego samego modelu. Inna architektura zbudowana dla kontekstów dokumentów biznesowych.
Źródła
Priva PII Benchmark 2024: Ocena precyzji Presidio. ZWERYFIKOWANE-ZEWNĘTRZNIE.
Microsoft Presidio: Obsługiwane encje i architektura modelu. ZWERYFIKOWANE-ZEWNĘTRZNIE.
spaCy: Dane treningowe en_core_web_lg i ograniczenia. ZWERYFIKOWANE-ZEWNĘTRZNIE.