Ажурирано за 2026 година
Проблемот со прецизноста 22,7%
Студија од 2024 година го тестирала Microsoft Presidio на деловни досиеа. Presidio е алатка за ЛЛИ со отворен код. Правните тимови и здравствените групи го користат широко.
Студијата мерела колку често Presidio бил во право. Од сите ставки кои ги означил како лични имиња, колку биле всушност лични имиња?
Одговорот бил 22,7%. Околу 77 од секои 100 ознаки биле погрешни. Студијата избројала 13.536 лажни ознаки низ 4.434 примерочни досиеа.
Грешките не биле случајни. Следеле јасни шаблони:
- Заменки означени како луѓе ("Јас" на почетокот на реченица)
- Ознаки на бродови означени како луѓе ("ASL Scorpio")
- Ознаки на компании означени како луѓе ("Deloitte & Touche")
- Термини за земји означени како луѓе ("Аргентина", "Сингапур")
Ниту едно од нив не е ретко рабен случај. Тие се појавуваат секогаш кога општ NLP модел се сретнува со текст специфичен за домен. Моделот не бил изграден за да ги разликува.
Колку чинат лажните ознаки
Во правна и здравствена работа, секоја ознака бара одговор. Тимовите се соочуваат со три опции. Сите три имаат реални трошоци.
Опција 1: Човек проверува секоја ознака. Времето на адвокатите и стручњаците чини 200 до 800 американски долари на час. При прецизност од 22,7%, обемот е огромен. Ова не е одржливо во голем обем. Видете Автоматизација на ЛЛИ за e-Discovery и намалување на трошоците за правен преглед за тоа како трошоците за преглед растат со обемот.
Опција 2: Прескокнете го прегледот и верувајте му на излезот. Ова исто така е ризично. Кога 77% од "редактираните" ставки не се чувствителни, создавате правен ризик. Судовите изрекле глоби на адвокати за прекумерна редакција. Видете Санкции за прекумерна редакција при e-Discovery за документирани случаи.
Опција 3: Зголемете го прагот на оценката. Presidio им овозможува на корисниците да постават score_threshold за отфрлање на слаби ознаки. Студија на DICOM од 2024 година го тестирала ова на 0,7 - прилично висока лента. Резултатот: 38 од 39 DICOM слики сè уште имале лажни ознаки. Праговите помагаат. Тие не ја поправаат основната причина.
Зошто општиот NLP се бори тука
Јазот на Presidio произлегува од несовпаѓање меѓу податоците за обука и употребата во реалниот свет.
Правните досиеа се полни со термини со голема буква. Имиња на случаи, наслови на закони и кодови на изложби изгледаат како лични податоци за општ модел. Тој ги означува. Повеќето не се лични податоци.
Здравствените досиеа додаваат имиња на лекови, кодови на уреди и клинички кратенки. "Pt." значи Пациент. "Dr." значи Доктор. Тие ја попречуваат детекцијата на ентитети на начини кои е тешко да се предвидат.
Финансиските досиеа имаат кодови на производи, низи на ентитети и ID-а на сметки кои споделуваат површински шаблони со лични записи.
Фино дотерување на модел на доменски податоци помага. Но потребува време и труд за изградба и одржување.
Како хибридната детекција го поправа ова
Проблемот со лажните ознаки има јасно решение. Поделете ја работата по тип на податоци.
Шаблонски правила за структурирани податоци. Броевите на социјалното осигурување, телефонските броеви, имејл адресите и форматите на документи за идентификација следат фиксни правила. Низа или се вклопува во шаблонот и ја поминува проверката на контролната цифра, или не. Нула лажни ознаки за валидни сетови правила.
Јазични модели за слободен текст. Имиња и презимиња, ознаки на компании и локации во проза немаат ригидна структура. NLP ги наоѓа кога правилата не можат. Оценките на доверба и проверките на контекст ја намалуваат стапката на лажни ознаки.
Поставки за оценки по тип за финна контрола. Правни тимови кои не можат да ризикуваат прекумерна редакција поставуваат високи прагови за нејасни совпаѓања. Истражувачките тимови кои имаат потреба од висок опфат поставуваат пониски. Видете Бинарно откривање ЛЛИ и оценување на доверба за усогласеност за тоа како нивоата на оценки функционираат на практика.
Резултатот е многу помалку грешки отколку стандардните поставки на Presidio. Опфатот останува силен таму каде самите правила би пропуштиле премногу.
За правните и здравствените тимови, клучното прашање не е дали лажните ознаки постојат. Тие секогаш постојат во NLP системи. Прашањето е дали алатката ви овозможува да ја поставите, мерите и документирате компромисот.