Cập nhật cho năm 2026
Hai cách biên tập thất bại
Các đội pháp lý đối mặt với hai chế độ lỗi. Cả hai đều dẫn đến trách nhiệm thực sự.
Biên tập không đủ làm lộ dữ liệu đặc quyền hoặc thông tin cá nhân cần được giữ bí mật. Bên tiết lộ tài liệu mà họ có quyền — thường là nghĩa vụ — phải bảo vệ.
Biên tập quá mức che giấu các sự kiện mà bên đối lập có quyền xem. Tòa án coi hành vi này là cản trở — vi phạm nghĩa vụ tiết lộ có thể bị chế tài.
Các công cụ AI ưu tiên độ thu hồi hơn độ chính xác gây ra vấn đề thứ hai theo thiết kế. Một công cụ AI che khuất 80% tài liệu tránh bỏ sót bất cứ điều gì, nhưng kết quả không thể sử dụng được và thậm chí có thể thu hút chế tài của thẩm phán.
Cả hai chế độ lỗi đều dẫn đến cùng một nơi: thẩm phán, giải thích và chi phí.
Vụ Schnitzer Steel (2024)
Vụ Athletics Investment Group v. Schnitzer Steel năm 2024 cho thấy cách tòa án xử lý việc giữ lại tài liệu không đúng cách.
Một bên đã sản xuất hồ sơ với các đánh dấu rộng rãi. Bên đối lập phản đối. Tòa án xem xét tài liệu và phát hiện các đánh dấu vượt quá những gì pháp luật cho phép.
Kết quả: chế tài theo Quy tắc Tố tụng Dân sự Liên bang 37. Bên sản xuất phải trả tiền cho một quy trình có lỗi.
Các chế tài như vậy không phải mới: tòa án đã áp dụng chúng trong nhiều năm. Điều làm cho vụ án này đáng chú ý là bối cảnh. Việc xem xét được hỗ trợ bởi AI ngày nay phổ biến trong tranh tụng. Vụ án đặt ra một câu hỏi quan trọng: các đội pháp lý có kiểm tra độ chính xác của các công cụ AI của họ trước khi sử dụng chúng trong các sản xuất tài liệu không?
Câu trả lời quan trọng. Một công cụ có độ chính xác kém sẽ đánh dấu quá nhiều. Chuyên gia tin vào nó mà không xác minh sẽ chịu rủi ro.
Để phân tích đầy đủ về vụ án, hãy xem phân tích của E-Discovery LLC về việc giữ lại dựa trên sự liên quan.
Vấn đề về độ chính xác 22,7%
Presidio là một công cụ nguồn mở để phát hiện dữ liệu PII do Microsoft phát triển, được sử dụng rộng rãi trong các công cụ xem xét tài liệu. Các thử nghiệm trên hồ sơ tòa án và hợp đồng cho nó tỷ lệ chính xác 22,7%.
Độ chính xác đo lường bao nhiêu dự đoán dương tính là đúng. Ở mức 22,7%, khoảng 77 trong số 100 đánh dấu là dương tính giả — các mục không nhạy cảm theo bất kỳ tiêu chuẩn áp dụng nào.
Đối với e-discovery, toán học rất trực tiếp. Một tập hợp 10.000 tài liệu được xử lý với tỷ lệ này sẽ chứa hàng nghìn đánh dấu không có cơ sở. Bên sản xuất đối mặt với rủi ro giống như bị đơn trong Schnitzer Steel: một sản xuất bị tranh chấp, xem xét tư pháp và các chế tài có thể xảy ra.
Dữ liệu này đề cập đến cấu hình mặc định của Presidio trên nội dung của công ty luật — không phải tất cả các công cụ AI đều có hiệu suất này. Nhưng công cụ này là giải pháp nguồn mở được sử dụng phổ biến nhất trong ngành.
Nguyên nhân mang tính cấu trúc. Các hệ thống NLP được đào tạo trên văn bản chung. Ngôn ngữ tòa án khác biệt: nó sử dụng thuật ngữ kỹ thuật, định dạng trích dẫn và quy ước soạn thảo khác với dữ liệu đào tạo. Một công cụ hoạt động tốt trên hồ sơ y tế có thể hoạt động kém hơn nhiều trên biên bản khai chứng.
Dữ liệu sử dụng AI cho thấy gì
Đây là một dữ liệu thứ hai: 27,4% nội dung được gửi đến các chatbot AI là nhạy cảm, theo một phân tích độc lập về việc sử dụng AI doanh nghiệp.
Điều này mô tả những gì nhân viên gửi trong các hoạt động thông thường — không phải dữ liệu họ có ý định chia sẻ, mà là nội dung được đưa vào do thói quen hoặc sơ suất. Các chuyên gia pháp lý sử dụng AI để soạn thảo thư, xem xét hợp đồng hoặc tóm tắt lời khai đang truyền dữ liệu nhạy cảm đến máy chủ của nhà cung cấp như là tác dụng phụ của công việc bình thường.
Gần ba trong mười lần tương tác liên quan đến dữ liệu khách hàng, thông tin đặc quyền hoặc chiến lược bào chữa. Những nội dung này đến máy chủ của nhà cung cấp ở dạng có thể đọc được, trừ khi có các biện pháp kiểm soát phù hợp để ngăn chặn.
Đối với các công ty luật đánh giá rủi ro AI của họ, 27,4% không phải là vấn đề ngoại vi: đây là tần suất cơ bản. Gần một phần ba việc sử dụng AI tại một công ty luật liên quan đến nội dung cần được bảo vệ.
Chuỗi trách nhiệm
Việc giữ lại quá mức và rò rỉ dữ liệu thông qua AI tạo ra các lộ trình rủi ro riêng biệt nhưng liên kết. Cả hai đều xuất phát từ cùng một quyết định: triển khai công cụ AI mà không đánh giá đầy đủ.
Lộ trình discovery: AI đánh dấu rộng rãi nội dung → chuyên gia tin vào đầu ra mà không kiểm tra ngẫu nhiên → sản xuất chứa các đánh dấu không có cơ sở → bên đối lập tranh chấp → thẩm phán xem xét → chế tài.
Lộ trình rò rỉ dữ liệu: Chuyên gia sử dụng AI cho công việc vụ án → AI nhận được thông tin liên lạc đặc quyền → nhà cung cấp AI bị vi phạm → dữ liệu khách hàng bị lộ → hành động sơ suất nghề nghiệp theo sau.
Điểm xuất phát giống nhau trong cả hai trường hợp: các công ty luật triển khai các công cụ AI mà không biết những công cụ đó thực sự làm gì, mà không có các biện pháp kiểm soát phù hợp.
Xem xét theo định hướng độ chính xác cho sản xuất tài liệu
Tòa án đặt ra một câu hỏi chính xác khi xem xét các đánh dấu bị tranh chấp: mỗi đánh dấu có được hỗ trợ bởi một đặc quyền, quy tắc bảo mật hoặc lệnh của thẩm phán không? Tòa án không hỏi liệu công cụ của bên sản xuất có đánh dấu nhiều nhất có thể không.
Một đánh dấu thiếu cơ sở biện minh là vi phạm các quy tắc discovery — bất kể nó được áp dụng bởi con người hay AI. Việc xem xét diễn ra theo từng đánh dấu.
Đối với các chuyên gia pháp lý, điều này có nghĩa là các công cụ xem xét AI phải được kiểm tra về độ chính xác — tỷ lệ đánh dấu thực sự là đặc quyền — không chỉ độ thu hồi. Một công cụ đạt 90% độ thu hồi ở mức 22,7% độ chính xác xác định nhiều nội dung nhạy cảm hơn, nhưng tạo ra gánh nặng xem xét cho 77,3% dương tính giả. Khi việc xem xét đó không xảy ra, việc giữ lại quá mức rộng rãi xảy ra tiếp theo.
Mỗi đánh dấu trong một sản xuất là một tuyên bố cho tòa án: nội dung này được giữ lại hợp pháp. Sau Schnitzer Steel, tuyên bố đó phải vững chắc.
Để tìm hiểu thêm về cách các công cụ ẩn danh hóa khác với phát hiện PII tiêu chuẩn, hãy xem hướng dẫn của chúng tôi về độ chính xác AI trong xem xét tài liệu pháp lý. Để có bối cảnh về nhật ký đặc quyền và các công cụ AI, hãy xem bài viết của chúng tôi về đặc quyền luật sư-khách hàng và AI.