Ажурирано за 2026 година

Проблемот со прецизноста 22,7%

Студија од 2024 година го тестирала Microsoft Presidio на деловни досиеа. Presidio е алатка за ЛЛИ со отворен код. Правните тимови и здравствените групи го користат широко.

Студијата мерела колку често Presidio бил во право. Од сите ставки кои ги означил како лични имиња, колку биле всушност лични имиња?

Одговорот бил 22,7%. Околу 77 од секои 100 ознаки биле погрешни. Студијата избројала 13.536 лажни ознаки низ 4.434 примерочни досиеа.

Грешките не биле случајни. Следеле јасни шаблони:

Заменки означени како луѓе ("Јас" на почетокот на реченица)
Ознаки на бродови означени како луѓе ("ASL Scorpio")
Ознаки на компании означени како луѓе ("Deloitte & Touche")
Термини за земји означени како луѓе ("Аргентина", "Сингапур")

Ниту едно од нив не е ретко рабен случај. Тие се појавуваат секогаш кога општ NLP модел се сретнува со текст специфичен за домен. Моделот не бил изграден за да ги разликува.

Колку чинат лажните ознаки

Во правна и здравствена работа, секоја ознака бара одговор. Тимовите се соочуваат со три опции. Сите три имаат реални трошоци.

Опција 1: Човек проверува секоја ознака. Времето на адвокатите и стручњаците чини 200 до 800 американски долари на час. При прецизност од 22,7%, обемот е огромен. Ова не е одржливо во голем обем. Видете Автоматизација на ЛЛИ за e-Discovery и намалување на трошоците за правен преглед за тоа како трошоците за преглед растат со обемот.

Опција 2: Прескокнете го прегледот и верувајте му на излезот. Ова исто така е ризично. Кога 77% од "редактираните" ставки не се чувствителни, создавате правен ризик. Судовите изрекле глоби на адвокати за прекумерна редакција. Видете Санкции за прекумерна редакција при e-Discovery за документирани случаи.

Опција 3: Зголемете го прагот на оценката. Presidio им овозможува на корисниците да постават score_threshold за отфрлање на слаби ознаки. Студија на DICOM од 2024 година го тестирала ова на 0,7 - прилично висока лента. Резултатот: 38 од 39 DICOM слики сè уште имале лажни ознаки. Праговите помагаат. Тие не ја поправаат основната причина.

Зошто општиот NLP се бори тука

Јазот на Presidio произлегува од несовпаѓање меѓу податоците за обука и употребата во реалниот свет.

Правните досиеа се полни со термини со голема буква. Имиња на случаи, наслови на закони и кодови на изложби изгледаат како лични податоци за општ модел. Тој ги означува. Повеќето не се лични податоци.

Здравствените досиеа додаваат имиња на лекови, кодови на уреди и клинички кратенки. "Pt." значи Пациент. "Dr." значи Доктор. Тие ја попречуваат детекцијата на ентитети на начини кои е тешко да се предвидат.

Финансиските досиеа имаат кодови на производи, низи на ентитети и ID-а на сметки кои споделуваат површински шаблони со лични записи.

Фино дотерување на модел на доменски податоци помага. Но потребува време и труд за изградба и одржување.

Како хибридната детекција го поправа ова

Проблемот со лажните ознаки има јасно решение. Поделете ја работата по тип на податоци.

Шаблонски правила за структурирани податоци. Броевите на социјалното осигурување, телефонските броеви, имејл адресите и форматите на документи за идентификација следат фиксни правила. Низа или се вклопува во шаблонот и ја поминува проверката на контролната цифра, или не. Нула лажни ознаки за валидни сетови правила.

Јазични модели за слободен текст. Имиња и презимиња, ознаки на компании и локации во проза немаат ригидна структура. NLP ги наоѓа кога правилата не можат. Оценките на доверба и проверките на контекст ја намалуваат стапката на лажни ознаки.

Поставки за оценки по тип за финна контрола. Правни тимови кои не можат да ризикуваат прекумерна редакција поставуваат високи прагови за нејасни совпаѓања. Истражувачките тимови кои имаат потреба од висок опфат поставуваат пониски. Видете Бинарно откривање ЛЛИ и оценување на доверба за усогласеност за тоа како нивоата на оценки функционираат на практика.

Резултатот е многу помалку грешки отколку стандардните поставки на Presidio. Опфатот останува силен таму каде самите правила би пропуштиле премногу.

За правните и здравствените тимови, клучното прашање не е дали лажните ознаки постојат. Тие секогаш постојат во NLP системи. Прашањето е дали алатката ви овозможува да ја поставите, мерите и документирате компромисот.

Извори

Поврзани статии

Технички

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

Започнете бесплатен пробен период Погледнете ги карактеристиките

Лажни позитиви на Presidio: Зошто ML редакцијата не успева

Проблемот со прецизноста 22,7%

Колку чинат лажните ознаки

Зошто општиот NLP се бори тука

Како хибридната детекција го поправа ова

Извори

Поврзани статии

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Подготвени да ги заштитите вашите податоци?

Лажни позитиви на Presidio: Зошто ML редакцијата не успева

Проблемот со прецизноста 22,7%

Колку чинат лажните ознаки

Зошто општиот NLP се бори тука

Како хибридната детекција го поправа ова

Извори

Поврзани статии

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Подготвени да ги заштитите вашите податоци?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow