Presidio พลาด Entity GDPR กว่า 220 รายการ: ช่องว่างความครอบคลุมของ EU
อัปเดตสำหรับปี 2026
Microsoft Presidio มาพร้อม recognizer entity เริ่มต้นประมาณ 40 รายการ สำหรับการ deploy ในสหรัฐฯ สิ่งนี้ใช้งานได้ ครอบคลุม SSN, US passport, driver's license, บัตรเครดิต และอีเมล
สำหรับการ deploy ใน EU ช่องว่างนั้นใหญ่ GDPR ครอบคลุมข้อมูลส่วนตัวของ EU ทั้งหมด สิ่งนี้บังคับใช้โดยไม่คำนึงถึงสัญชาติของเจ้าของข้อมูล ทีม EU ต้องการ recognizer ที่ Presidio ไม่ได้ส่งมาให้
สิ่งที่ Presidio มีให้
ค่าเริ่มต้นของ Presidio แบ่งเป็นสี่กลุ่ม
ID เน้นสหรัฐฯ:
- US Social Security Number (SSN)
- US Passport Number
- US Driver's License Number
- US Bank Account Number
- US ITIN
- US Medical License Number
ID สากล:
- Email Address
- Phone Number
- IP Address
- Credit Card Number
- Crypto Wallet Address
- URL
Entity ข้อความ (NER-based):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
นานาชาติจำกัด:
- UK NHS Number
- UK National Insurance Number (NINO)
- ตัวระบุทางการเงินบางส่วน
รวม: ประมาณ 40 recognizer
สิ่งที่ทีม EU ต้องการ
Financial ID
IBAN ปรากฏในไฟล์ธุรกิจ EU ส่วนใหญ่ ปรากฏในการชำระเงิน ใบแจ้งหนี้ และเงินเดือน IBAN เป็นไปตาม ISO 13616 Presidio ไม่มี IBAN recognizer
พิจารณา fintech ของเยอรมัน ทุกไฟล์การชำระเงินมี IBAN หากไม่มีการตรวจจับ IBAN เครื่องมือจะค้นหาเฉพาะหมายเลขบัตรเครดิต ID การชำระเงินหลักของ EU ถูกพลาด หมายความว่าข้อมูลที่ GDPR ครอบคลุมชิ้นสำคัญไม่เคยถูกพบ
National Tax ID
ไม่มีสิ่งเหล่านี้ใน Presidio defaults:
- German Steueridentifikationsnummer: 11 หลัก
- French NIR: 15 หลักพร้อมคีย์ตรวจสอบ
- Italian Codice Fiscale: 16 ตัวอักษรพร้อม checksum
- Spanish NIF/NIE: 9 ตัวอักษรพร้อมตัวอักษร
- Dutch BSN: 9 หลักพร้อมการตรวจสอบ elfproef
ทีมเงินเดือน EU จัดการไฟล์จากหลายประเทศสมาชิก หากไม่มีสิ่งเหล่านี้ ก็จะพลาด ID ที่สำคัญที่สุดในระเบียนเหล่านั้น
National Health ID
UK NHS Number มีอยู่ แต่สิ่งเหล่านี้ไม่มี:
- French NIR (เป็น health ID เช่นกัน)
- German Krankenkassennummer
- Italian Codice Fiscale (เป็น health ID เช่นกัน)
- Dutch BSN (ใช้สำหรับประกันสุขภาพ)
ทีมสุขภาพ EU ต้องการสิ่งเหล่านี้สำหรับการคุ้มครองข้อมูลระดับ GDPR
EU Driving License
ใบขับขี่ EU อยู่ภายใต้ Directive 2006/126/EC แต่ละประเทศสมาชิกมีรูปแบบของตัวเอง โครงสร้างอักขระและตัวเลขแตกต่างกันตามประเทศ Presidio มี recognizer ใบขับขี่เฉพาะสหรัฐฯ ไม่มีการรองรับใบขับขี่ EU ซึ่งหมายความว่าข้อมูลใบขับขี่ EU ผ่านไปโดยไม่ถูกตรวจจับ
VAT Numbers
หมายเลข VAT ของ EU ปรากฏในทุกข้อตกลง B2B รูปแบบ: รหัสประเทศ 2 ตัวอักษรบวก 8–12 หลัก Presidio ไม่มี VAT recognizer หมายเลข VAT เชื่อมโยงกับบริษัทและเจ้าของ ถือเป็นข้อมูลส่วนตัวภายใต้ GDPR
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับข้อผูกพัน GDPR ดู GDPR compliance resources
ต้นทุนของ Custom Recognizer
เมื่อทีม EU ค้นพบช่องว่าง พวกเขาสร้าง custom recognizer สิ่งนี้ใช้เวลาจริง
เวลาต่อ recognizer (ประมาณการหยาบ):
- ค้นคว้ารูปแบบ: 1–2 ชั่วโมง
- เขียน Python class: 2–4 ชั่วโมง
- สร้าง regex และการตรวจสอบ: 2–4 ชั่วโมง
- เพิ่ม context word: 1–2 ชั่วโมง
- เขียนการทดสอบ: 2–3 ชั่วโมง
- Deploy และตรวจสอบ: 1–2 ชั่วโมง
นั่นคือ 9–17 ชั่วโมงต่อ recognizer นี่เป็นประมาณการหยาบเท่านั้น
ตัวอย่าง: fintech เยอรมันต้องการ recognizer สี่รายการ
IBAN, Steuer-ID, ใบขับขี่ EU, German VAT
- 4 recognizer ที่ 13 ชั่วโมงแต่ละรายการ = 52 ชั่วโมงของงาน
- ที่ €100 ต่อชั่วโมง: ประมาณ €5,200
นั่นครอบคลุมเฉพาะการสร้างครั้งแรก รูปแบบเปลี่ยนแปลงเมื่อเวลาผ่านไป กรณีขอบใหม่เกิดขึ้น การ update Presidio API อาจทำให้เสียหาย การเปลี่ยนแปลงแต่ละครั้งต้องการนักพัฒนาเพื่อตรวจสอบและแก้ไข งานต่อเนื่องเพิ่มต้นทุนปีแล้วปีเล่า
Managed Library
anonym.legal ขยาย Presidio ด้วย entity มากกว่า 285 ประเภท ทีมดูแล library ให้ทันสมัย ตัวระบุ EU รวมอยู่ตั้งแต่วันแรก
สิ่งที่เกินกว่า Presidio defaults:
- IBAN ในทุกรูปแบบของประเทศสมาชิก EU
- Tax ID ของประเทศสมาชิก: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL และอื่นๆ
- National health ID ของ EU
- หมายเลข VAT (รูปแบบ EU)
- รูปแบบใบขับขี่ EU
- รูปแบบ passport ของยุโรป
- ตัวแปร entity ใน 48 ภาษาที่รองรับ
เมื่อเยอรมนี update รูปแบบ tax ID การ update ส่งมาพร้อม service ไม่ต้องการ pull request จากทีมของคุณ
สำหรับ ID ที่ไม่อยู่ใน library custom entity builder ให้คุณเพิ่มรูปแบบ ไม่จำเป็นต้องใช้โค้ด Python
ดู security and compliance details สำหรับวิธีที่ update และ audit trail ทำงาน
ตัวอย่าง German Fintech
Fintech เยอรมันต้องการตรวจจับ IBAN, BIC, Steuer-ID และ Handelsregisternummer ในไฟล์ลูกค้า
อัตราการตรวจจับ Presidio เริ่มต้นสำหรับสี่ประเภทนี้: 0%
ไม่มีใน library เริ่มต้น นี่ไม่ใช่ precision ที่ต่ำ มันคือ zero detection เครื่องมือไม่ได้พลาดบางส่วน มันมองไม่เห็นเลย
การเปรียบเทียบต้นทุน:
| แนวทาง | ต้นทุนปีแรก |
|---|---|
| Custom recognizer (4 × 13 ชม. ที่ €100/ชม.) | ~€5,200 บวกค่าดูแลต่อเนื่อง |
| Managed entity library (Pro plan) | €180/ปี ครอบคลุมทั้งสี่ |
ช่องว่างอยู่ที่ประมาณ 29x ในปีแรก ปีต่อๆ ไป ค่าดูแลแบบกำหนดเองเพิ่มขึ้น ราคา managed service คงที่
สรุป
ค่าเริ่มต้นของ Presidio ให้บริการ use case ของสหรัฐฯ ได้ดี สำหรับการ deploy ใน EU ภายใต้ GDPR มันขาดตกบกพร่อง ช่องว่างนั้นต้องการงาน custom recognizer หรือ managed service
สำหรับทีม EU ที่ต้องการ compliance และเวลาวิศวกรรมตึงตัว EU entity library ที่สร้างไว้ล่วงหน้าจะลบโครงการสร้าง 50+ ชั่วโมง ไฟล์สามารถประมวลผลได้ตั้งแต่วันแรก ไม่ต้องใช้โค้ดแบบกำหนดเองก่อน