Ограничување на бинарна детекција
Секој PII систем за детекција се соочува со фундаментален предмет: исто стринг може да биде PII во еден контекст и не во друг. "John" во жалба на потошител е предмет на податоци. "John" како референца на John F. Kennedy во историски документ не е. Број на социјална безбедност во медицински запис е HIPAA идентификатор. Деветцифрена кода за производ која случајно совпаѓа SSN формат не е.
Бинарна детекција — флаг за детектирано/не-детектирано — не може да ја претстави оваа двосмисленост. Силува или над-редакција (означи се што може да биде PII) или под-редакција (означи се само високо-сигурни совпаѓања). За контексти на усогласеност кои бараат браниво, проверена анонимизација одлуки, ниту опција не е прифатлива.
Confidence scoring обезбедува средната патека: вредност од 0-100% сигурност по детектирана единица која омогува слојна одлука-правење, човешки преглед workflows, и ревизија документација.
Правната детекција користење на случај
Правната детекција анонимизација има експлицитни захтеви кои прават confidence scoring не-опционален:
Проблемот од над-редакција: Неправилна редакција на имињата на адвокатите, судските референци или правни цитирања го корумпира доказниот вредност на документи. Судовите санкционирале адвокатите за над-редакција во e-discovery контексти — исто закон на случај кој санкционира под-редакција исто така покрива над-редакција.
Проблемот од под-редакција: Пропуштање на вистински PII создава одговорност: нарушување на тајност на клиент, жалби од асоцијација на адвокатите и во неки...