NAIH ฮังการี: TAJ-Szám และข้อกำหนดทางเทคนิค GDPR
อัปเดตสำหรับปี 2026
หน่วยงานข้อมูลของฮังการีคือ NAIH รายงานปี 2024 พบว่าความแม่นยำ NER สำหรับภาษาฮังการีอยู่ที่ 67% เท่านั้น ค่าเฉลี่ยสหภาพยุโรปคือ 82% ช่องว่างนั้นสร้างความเสี่ยงที่แท้จริง เครื่องมือที่สร้างสำหรับภาษาอังกฤษหรือเยอรมันพลาดหมายเลขประจำตัวฮังการีในอัตราที่สูง
เหตุใด NER ภาษาฮังการีจึงได้คะแนนต่ำ
สามลักษณะของภาษาฮังการีทำลายโมเดล NLP มาตรฐาน
การประกอบคำ (Agglutination): ภาษาฮังการีเพิ่มคำต่อท้ายกับรากคำ ชื่อเดียวกันมีหลายรูปแบบในประโยค "Kovács Péter" ในตำแหน่งประธานกลายเป็น "Kovács Péternek" ในบทบาทอื่น โมเดล NER ต้องเชื่อมโยงรูปแบบทั้งหมดเหล่านั้นกับบุคคลเดียว
ลำดับชื่อ: ภาษาฮังการีวางนามสกุลก่อน โมเดล NLP ส่วนใหญ่คาดหวังชื่อตัวก่อน การกลับด้านนั้นทำให้พลาดการตรวจจับ
ตัวอักษรพิเศษ: ภาษาฮังการีใช้ ő และ ű สิ่งเหล่านี้ไม่เหมือนกับ umlaut ของเยอรมัน การเข้ารหัสผสม — Windows-1250 เทียบกับ UTF-8 — ก็ทำให้เกิดความล้มเหลวเช่นกัน
สามปัจจัยนี้อธิบายช่องว่างความแม่นยำส่วนใหญ่ในรายงานปี 2024 ของ NAIH
TAJ-Szám: หมายเลขประกันสังคมของฮังการี
TAJ-szám (Társadalombiztosítási Azonosító Jel) คือหมายเลข 9 หลัก ปรากฏในบันทึกการดูแลสุขภาพ เงินเดือน สวัสดิการสังคม และเงินบำนาญ
Checksum: คูณหลักที่ 1 ถึง 8 ด้วยน้ำหนัก 3, 7, 3, 7, 3, 7, 3, 7 บวกผลลัพธ์ หารด้วย 10 ซึ่งจะให้หลักตรวจสอบ
อัลกอริทึมนี้เป็นเอกลักษณ์ของฮังการี มันไม่ใช่อัลกอริทึม Luhn ที่ใช้ในประเทศอื่นๆ
เครื่องมือทั่วไปตรวจจับ TAJ-szám ได้เพียง 61% ตามรายงาน NAIH 2024 รูปแบบ 9 หลักดูเหมือนหมายเลขอื่นๆ จำนวนมากในเอกสารฮังการี หากไม่มีขั้นตอน checksum เครื่องมือจะตั้งค่าสถานะ false positives และพลาดของจริง
Adóazonosító Jel: หมายเลขภาษีของฮังการี
adóazonosító jel คือหมายเลขภาษีส่วนบุคคล 10 หลัก หลักแรกคือ 8 เสมอ ปรากฏในบันทึกการจ้างงาน การยื่นภาษี และเอกสารทางการเงิน
Checksum: นำหลักที่ 2 ถึง 9 คูณด้วยน้ำหนัก 9, 7, 3, 1, 9, 7, 3, 1 บวกผลลัพธ์ หารด้วย 10 นั่นคือหลักตรวจสอบ ผลลัพธ์ 0 หมายความว่าหลักตรวจสอบคือ 0
คดีบังคับใช้ของ NAIH แสดงว่าหมายเลขนี้มักถูกพลาดในเอกสาร HR เมื่อเครื่องมือถูกตั้งค่าสำหรับภาษาอื่น
ดู คู่มือ EU national tax ID ของเราสำหรับการเปรียบเทียบหมายเลขเหล่านี้ข้ามรัฐสมาชิก
ข้อกำหนด DPIA ของ NAIH สำหรับระบบ AI
คำแนะนำปี 2024 ของ NAIH กำหนดให้ DPIA ที่เสร็จสมบูรณ์ก่อนที่ระบบ AI ใดก็ตามจะประมวลผลข้อมูลส่วนบุคคล สิ่งนี้เข้มงวดกว่าการทดสอบ GDPR ทั่วไป DPIA ต้องครอบคลุม:
- การไหลของข้อมูล — ข้อมูลการฝึก อินพุต และเอาต์พุต
- ฐานทางกฎหมาย — บันทึกสำหรับแต่ละกิจกรรม
- ความแม่นยำของภาษา — จำเป็นสำหรับภาษาที่ต่ำกว่าค่าเฉลี่ยสหภาพยุโรป
- การตรวจสอบโดยมนุษย์ — วิธีการตรวจสอบการตัดสินใจอัตโนมัติ
DPIA ต้องได้รับการอัปเดตทุกปีเมื่อระบบได้รับการฝึกใหม่
สำหรับทีมที่ติดตั้งเครื่องมือ AI บนข้อมูลฮังการี ลำดับเป็นค่าคงที่: DPIA ก่อน จากนั้นจึงติดตั้ง
การควบคุมทางเทคนิคขั้นต่ำ
สามมาตรการควบคุมประกอบเป็นพื้นฐานสำหรับการปฏิบัติตาม NAIH:
- การตรวจจับ TAJ-szám ด้วย modulo-10 checksum — การจับคู่รูปแบบเพียงอย่างเดียวไม่เพียงพอ
- การตรวจจับ adóazonosító jel ด้วยการตรวจสอบ checksum — สำคัญสำหรับ HR และการเงิน
- NER ภาษาฮังการีพร้อมรองรับการประกอบคำ — ต้องจัดการ ő, ű และรูปแบบการเข้ารหัส
ดู คู่มือ BFDI เยอรมนี ของเราเพื่อเปรียบเทียบวิธีที่ DPA ในยุโรปกลางกำหนดข้อกำหนดทางเทคนิค สำหรับช่องว่างภาษาที่คล้ายกันในยุโรปกลาง ดู คู่มือ Czech ÚOOÚ ของเรา