Cập nhật cho năm 2026
Vấn đề độ chính xác 22,7%
Một nghiên cứu năm 2024 đã kiểm tra Microsoft Presidio trên các tệp thương mại. Presidio là công cụ PII mã nguồn mở. Nó được sử dụng rộng rãi bởi các nhóm pháp lý và tổ chức y tế.
Nghiên cứu đo lường tần suất Presidio đúng. Trong tất cả các mục nó gắn cờ là tên người, bao nhiêu mục thực sự là tên người?
Câu trả lời: 22,7%. Khoảng 77 trong mỗi 100 gắn cờ là sai. Nghiên cứu đếm được 13.536 gắn cờ sai trên 4.434 tệp mẫu.
Các lỗi không ngẫu nhiên. Chúng theo các mẫu rõ ràng:
- Đại từ được gắn cờ là người (ví dụ: "I" ở đầu câu)
- Tên tàu được gắn cờ là người (ví dụ: "ASL Scorpio")
- Tên công ty được gắn cờ là người (ví dụ: "Deloitte & Touche")
- Tên địa lý được gắn cờ là người (ví dụ: "Argentina" hoặc "Singapore")
Không có trường hợp nào trong số này là trường hợp ngoại lệ hiếm gặp. Chúng xảy ra bất cứ khi nào một mô hình NLP chung gặp văn bản cụ thể theo lĩnh vực. Mô hình không được xây dựng để phân biệt chúng.
Chi phí của gắn cờ sai
Trong công việc pháp lý và y tế, mỗi gắn cờ yêu cầu phản hồi. Các nhóm có ba lựa chọn. Cả ba đều có chi phí thực tế.
Lựa chọn 1: Con người xem xét mọi gắn cờ. Giờ công của luật sư và chuyên gia có giá từ 200 đến 800 đô la mỗi giờ. Với độ chính xác 22,7%, khối lượng là rất lớn. Điều này không khả thi ở quy mô lớn. Xem Tự động hóa PII eDiscovery và giảm chi phí xem xét pháp lý để biết chi phí xem xét tăng theo khối lượng như thế nào.
Lựa chọn 2: Bỏ qua xem xét và tin tưởng đầu ra. Điều này cũng rủi ro. Nếu 77% mục bị chỉnh sửa không nhạy cảm, bạn đang tạo ra rủi ro pháp lý. Tòa án đã phạt các luật sư vì chỉnh sửa quá mức. Xem Chế tài chỉnh sửa quá mức trong eDiscovery để biết các trường hợp được ghi lại.
Lựa chọn 3: Tăng ngưỡng điểm. Presidio cho phép người dùng đặt score_threshold để loại bỏ các gắn cờ yếu. Nghiên cứu DICOM năm 2024 đã kiểm tra điều này ở mức 0,7 — một ngưỡng khá cao. Kết quả: 38 trong 39 hình ảnh DICOM vẫn còn gắn cờ sai. Ngưỡng giúp ích. Chúng không loại bỏ nguyên nhân gốc rễ.
Tại sao NLP chung thất bại ở đây
Khoảng trống của Presidio xuất phát từ sự không khớp giữa dữ liệu huấn luyện và sử dụng thực tế.
Các tệp pháp lý chứa đầy các thuật ngữ viết hoa. Tên vụ án, tiêu đề luật và mã phụ lục tất cả trông giống như dữ liệu cá nhân đối với một mô hình chung. Nó gắn cờ chúng. Hầu hết không phải là dữ liệu cá nhân.
Các tệp y tế thêm tên thuốc, mã thiết bị và từ viết tắt lâm sàng. Từ viết tắt "Pt." có nghĩa là bệnh nhân. "Dr." có nghĩa là bác sĩ. Những từ viết tắt này làm gián đoạn phát hiện thực thể theo những cách khó đoán.
Các tệp tài chính có mã sản phẩm, chuỗi thực thể và ID tài khoản chia sẻ các mẫu bề mặt với hồ sơ cá nhân.
Việc tinh chỉnh mô hình trên dữ liệu theo lĩnh vực giúp ích. Nhưng việc xây dựng và duy trì nó đòi hỏi thời gian và công sức.
Cách phát hiện kết hợp giải quyết vấn đề này
Vấn đề gắn cờ sai có giải pháp rõ ràng. Phân chia công việc theo loại dữ liệu.
Quy tắc mẫu cho dữ liệu có cấu trúc. Số an sinh xã hội, số điện thoại, địa chỉ email và định dạng ID tuân theo các quy tắc cố định. Một chuỗi hoặc khớp với mẫu và vượt qua kiểm tra chữ số kiểm tra, hoặc không. Không có gắn cờ sai cho các bộ quy tắc hợp lệ.
Mô hình ngôn ngữ cho văn bản tự do. Tên họ, nhãn công ty và địa điểm trong văn xuôi không có cấu trúc cố định. NLP tìm thấy chúng khi các quy tắc không đủ. Điểm tin cậy và kiểm tra ngữ cảnh giảm tỷ lệ gắn cờ sai.
Cài đặt điểm theo loại để kiểm soát tinh tế. Các nhóm pháp lý không thể rủi ro chỉnh sửa quá mức đặt ngưỡng cao cho các kết quả khớp mờ. Các nhóm nghiên cứu cần độ bao phủ cao đặt thấp hơn. Xem Phát hiện PII nhị phân và tính điểm tin cậy để tuân thủ để biết các mức điểm hoạt động trong thực tế như thế nào.
Kết quả là ít lỗi hơn đáng kể so với cài đặt mặc định của Presidio. Độ bao phủ vẫn mạnh ở những nơi quy tắc một mình sẽ bỏ sót quá nhiều.
Đối với các nhóm pháp lý và y tế, câu hỏi chính không phải là liệu gắn cờ sai có tồn tại không. Chúng luôn tồn tại trong các hệ thống NLP. Câu hỏi là liệu công cụ có cho phép cấu hình, đo lường và ghi lại sự đánh đổi đó không.