Presidio Bỏ Sót 220+ Thực Thể GDPR: Khoảng Trống Bao Phủ EU
Cập nhật cho 2026
Microsoft Presidio được cài sẵn khoảng 40 bộ nhận diện thực thể mặc định. Đối với triển khai Mỹ, điều này hoạt động. Nó bao gồm SSN, hộ chiếu Mỹ, bằng lái xe, thẻ tín dụng, và email.
Đối với triển khai EU, khoảng trống rất lớn. GDPR bao gồm tất cả dữ liệu cá nhân EU. Điều này áp dụng bất kể quốc tịch của chủ thể dữ liệu. Các nhóm EU cần bộ nhận diện mà Presidio không cài sẵn.
Những Gì Presidio Bao Gồm
Các mặc định của Presidio thuộc bốn nhóm.
ID tập trung vào Mỹ:
- Số An Sinh Xã Hội Mỹ (SSN)
- Số Hộ Chiếu Mỹ
- Số Bằng Lái Xe Mỹ
- Số Tài Khoản Ngân Hàng Mỹ
- ITIN Mỹ
- Số Giấy Phép Y Tế Mỹ
ID phổ quát:
- Địa Chỉ Email
- Số Điện Thoại
- Địa Chỉ IP
- Số Thẻ Tín Dụng
- Địa Chỉ Ví Tiền Mã Hóa
- URL
Thực thể văn bản (dựa trên NER):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
Quốc tế hạn chế:
- Số NHS Anh
- Số Bảo Hiểm Quốc Gia Anh (NINO)
- Một số định danh tài chính
Tổng cộng: khoảng 40 bộ nhận diện.
Những Gì Nhóm EU Cần
ID Tài Chính
IBAN xuất hiện trong hầu hết tài liệu kinh doanh EU. Nó xuất hiện trong thanh toán, hóa đơn, và bảng lương. IBAN theo ISO 13616. Presidio không có bộ nhận diện IBAN.
Lấy một công ty fintech Đức. Mọi tệp thanh toán đều có IBAN. Không có tính năng phát hiện IBAN, công cụ chỉ tìm kiếm số thẻ tín dụng. ID thanh toán EU chính bị bỏ sót. Điều đó có nghĩa là một phần dữ liệu được bảo vệ theo GDPR quan trọng không bao giờ được tìm thấy.
ID Thuế Quốc Gia
Không có cái nào trong số này trong mặc định của Presidio:
- Steueridentifikationsnummer Đức: 11 chữ số
- NIR Pháp: 15 chữ số với khóa kiểm tra
- Codice Fiscale Ý: 16 ký tự có tổng kiểm tra
- NIF/NIE Tây Ban Nha: 9 ký tự với một chữ cái
- BSN Hà Lan: 9 chữ số với xác thực elfproef
Một nhóm bảng lương EU xử lý tài liệu từ nhiều quốc gia thành viên. Không có những thứ này, họ bỏ sót các ID nhạy cảm nhất trong những hồ sơ đó.
ID Y Tế Quốc Gia
Số NHS Anh được bao gồm. Những cái này thì không:
- NIR Pháp (cũng là ID y tế)
- Krankenkassennummer Đức
- Codice Fiscale Ý (cũng là ID y tế)
- BSN Hà Lan (dùng cho bảo hiểm y tế)
Các nhóm y tế EU cần những thứ này để bảo vệ dữ liệu ở mức GDPR.
Bằng Lái Xe EU
Bằng lái xe EU thuộc Chỉ thị 2006/126/EC. Mỗi quốc gia thành viên có định dạng riêng. Cấu trúc chữ số và ký tự khác nhau theo từng quốc gia. Presidio có bộ nhận diện bằng lái xe chỉ dành cho Mỹ. Không có hỗ trợ bằng lái xe EU. Điều này có nghĩa là dữ liệu bằng lái xe EU đi qua mà không bị phát hiện.
Số VAT
Số VAT EU xuất hiện trong mọi giao dịch B2B. Định dạng: mã quốc gia 2 chữ cái cộng 8–12 chữ số. Presidio không có bộ nhận diện VAT. Số VAT liên kết với các công ty và chủ sở hữu của họ. Chúng là dữ liệu cá nhân theo GDPR.
Để biết thêm về nghĩa vụ GDPR, xem tài nguyên tuân thủ GDPR.
Chi Phí Của Bộ Nhận Diện Tùy Chỉnh
Khi các nhóm EU phát hiện khoảng trống, họ xây dựng bộ nhận diện tùy chỉnh. Điều này mất thời gian thực sự.
Thời gian mỗi bộ nhận diện (ước tính thô):
- Nghiên cứu định dạng: 1–2 giờ
- Viết class Python: 2–4 giờ
- Xây dựng regex và xác thực: 2–4 giờ
- Thêm từ ngữ cảnh: 1–2 giờ
- Viết kiểm tra: 2–3 giờ
- Triển khai và kiểm tra: 1–2 giờ
Đó là 9–17 giờ mỗi bộ nhận diện. Đây chỉ là ước tính thô.
Ví dụ: một công ty fintech Đức cần bốn bộ nhận diện.
IBAN, Steuer-ID, bằng lái xe EU, VAT Đức.
- 4 bộ nhận diện với 13 giờ mỗi cái = 52 giờ làm việc
- Với €100/giờ: khoảng €5.200
Đó chỉ bao gồm lần xây dựng đầu tiên. Định dạng thay đổi theo thời gian. Các trường hợp ngoại lệ mới xuất hiện. Cập nhật API Presidio có thể phá vỡ mọi thứ. Mỗi thay đổi cần một nhà phát triển xem xét và sửa. Công việc liên tục thêm vào chi phí năm này qua năm khác.
Thư Viện Được Quản Lý
anonym.legal mở rộng Presidio với 285+ loại thực thể. Nhóm duy trì thư viện được cập nhật. Các định danh EU được bao gồm từ ngày đầu tiên.
Những gì vượt ra ngoài mặc định Presidio:
- IBAN ở tất cả định dạng quốc gia thành viên EU
- ID thuế quốc gia: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, và nhiều hơn
- ID y tế quốc gia EU
- Số VAT (định dạng EU)
- Định dạng bằng lái xe EU
- Định dạng hộ chiếu châu Âu
- Biến thể thực thể trong 48 ngôn ngữ được hỗ trợ
Khi Đức cập nhật định dạng ID thuế, bản cập nhật được phát hành cùng với dịch vụ. Không cần pull request từ nhóm của bạn.
Đối với các ID không có trong thư viện, trình tạo thực thể tùy chỉnh cho phép bạn thêm các mẫu. Không cần code Python.
Xem chi tiết bảo mật và tuân thủ để biết cách cập nhật và trail kiểm toán hoạt động.
Ví Dụ Fintech Đức
Một công ty fintech Đức cần phát hiện IBAN, BIC, Steuer-ID, và Handelsregisternummer trong tài liệu khách hàng.
Tỷ lệ phát hiện mặc định Presidio cho bốn loại này: 0%.
Không có loại nào trong thư viện mặc định. Đây không phải là độ chính xác kém. Đây là không có phát hiện. Công cụ không bỏ sót chúng một phần. Nó không thấy chúng chút nào.
So sánh chi phí:
| Cách tiếp cận | Chi phí năm đầu |
|---|---|
| Bộ nhận diện tùy chỉnh (4 × 13 giờ với €100/giờ) | ~€5.200 cộng bảo trì liên tục |
| Thư viện thực thể được quản lý (gói Pro) | €180/năm, cả bốn đều được bao gồm |
Khoảng cách là khoảng 29x trong năm đầu. Mỗi năm sau đó, bảo trì tùy chỉnh thêm chi phí. Giá dịch vụ được quản lý vẫn ổn định.
Kết Luận
Các mặc định của Presidio phục vụ tốt cho các trường hợp sử dụng Mỹ. Đối với triển khai EU theo GDPR, chúng còn thiếu. Khoảng trống yêu cầu công việc bộ nhận diện tùy chỉnh hoặc dịch vụ được quản lý.
Đối với các nhóm EU nơi tuân thủ là bắt buộc và thời gian kỹ thuật còn eo hẹp, thư viện thực thể EU được xây dựng sẵn loại bỏ một dự án xây dựng hơn 50 giờ. Tệp có thể được xử lý từ ngày đầu tiên. Không cần code tùy chỉnh trước.