อัปเดตสำหรับปี 2026

หน่วยงานข้อมูลของฮังการีคือ NAIH รายงานปี 2024 พบว่าความแม่นยำ NER สำหรับภาษาฮังการีอยู่ที่ 67% เท่านั้น ค่าเฉลี่ยสหภาพยุโรปคือ 82% ช่องว่างนั้นสร้างความเสี่ยงที่แท้จริง เครื่องมือที่สร้างสำหรับภาษาอังกฤษหรือเยอรมันพลาดหมายเลขประจำตัวฮังการีในอัตราที่สูง

เหตุใด NER ภาษาฮังการีจึงได้คะแนนต่ำ

สามลักษณะของภาษาฮังการีทำลายโมเดล NLP มาตรฐาน

การประกอบคำ (Agglutination): ภาษาฮังการีเพิ่มคำต่อท้ายกับรากคำ ชื่อเดียวกันมีหลายรูปแบบในประโยค "Kovács Péter" ในตำแหน่งประธานกลายเป็น "Kovács Péternek" ในบทบาทอื่น โมเดล NER ต้องเชื่อมโยงรูปแบบทั้งหมดเหล่านั้นกับบุคคลเดียว

ลำดับชื่อ: ภาษาฮังการีวางนามสกุลก่อน โมเดล NLP ส่วนใหญ่คาดหวังชื่อตัวก่อน การกลับด้านนั้นทำให้พลาดการตรวจจับ

ตัวอักษรพิเศษ: ภาษาฮังการีใช้ ő และ ű สิ่งเหล่านี้ไม่เหมือนกับ umlaut ของเยอรมัน การเข้ารหัสผสม — Windows-1250 เทียบกับ UTF-8 — ก็ทำให้เกิดความล้มเหลวเช่นกัน

สามปัจจัยนี้อธิบายช่องว่างความแม่นยำส่วนใหญ่ในรายงานปี 2024 ของ NAIH

TAJ-Szám: หมายเลขประกันสังคมของฮังการี

TAJ-szám (Társadalombiztosítási Azonosító Jel) คือหมายเลข 9 หลัก ปรากฏในบันทึกการดูแลสุขภาพ เงินเดือน สวัสดิการสังคม และเงินบำนาญ

Checksum: คูณหลักที่ 1 ถึง 8 ด้วยน้ำหนัก 3, 7, 3, 7, 3, 7, 3, 7 บวกผลลัพธ์ หารด้วย 10 ซึ่งจะให้หลักตรวจสอบ

อัลกอริทึมนี้เป็นเอกลักษณ์ของฮังการี มันไม่ใช่อัลกอริทึม Luhn ที่ใช้ในประเทศอื่นๆ

เครื่องมือทั่วไปตรวจจับ TAJ-szám ได้เพียง 61% ตามรายงาน NAIH 2024 รูปแบบ 9 หลักดูเหมือนหมายเลขอื่นๆ จำนวนมากในเอกสารฮังการี หากไม่มีขั้นตอน checksum เครื่องมือจะตั้งค่าสถานะ false positives และพลาดของจริง

Adóazonosító Jel: หมายเลขภาษีของฮังการี

adóazonosító jel คือหมายเลขภาษีส่วนบุคคล 10 หลัก หลักแรกคือ 8 เสมอ ปรากฏในบันทึกการจ้างงาน การยื่นภาษี และเอกสารทางการเงิน

Checksum: นำหลักที่ 2 ถึง 9 คูณด้วยน้ำหนัก 9, 7, 3, 1, 9, 7, 3, 1 บวกผลลัพธ์ หารด้วย 10 นั่นคือหลักตรวจสอบ ผลลัพธ์ 0 หมายความว่าหลักตรวจสอบคือ 0

คดีบังคับใช้ของ NAIH แสดงว่าหมายเลขนี้มักถูกพลาดในเอกสาร HR เมื่อเครื่องมือถูกตั้งค่าสำหรับภาษาอื่น

ดู คู่มือ EU national tax ID ของเราสำหรับการเปรียบเทียบหมายเลขเหล่านี้ข้ามรัฐสมาชิก

ข้อกำหนด DPIA ของ NAIH สำหรับระบบ AI

คำแนะนำปี 2024 ของ NAIH กำหนดให้ DPIA ที่เสร็จสมบูรณ์ก่อนที่ระบบ AI ใดก็ตามจะประมวลผลข้อมูลส่วนบุคคล สิ่งนี้เข้มงวดกว่าการทดสอบ GDPR ทั่วไป DPIA ต้องครอบคลุม:

การไหลของข้อมูล — ข้อมูลการฝึก อินพุต และเอาต์พุต
ฐานทางกฎหมาย — บันทึกสำหรับแต่ละกิจกรรม
ความแม่นยำของภาษา — จำเป็นสำหรับภาษาที่ต่ำกว่าค่าเฉลี่ยสหภาพยุโรป
การตรวจสอบโดยมนุษย์ — วิธีการตรวจสอบการตัดสินใจอัตโนมัติ

DPIA ต้องได้รับการอัปเดตทุกปีเมื่อระบบได้รับการฝึกใหม่

สำหรับทีมที่ติดตั้งเครื่องมือ AI บนข้อมูลฮังการี ลำดับเป็นค่าคงที่: DPIA ก่อน จากนั้นจึงติดตั้ง

การควบคุมทางเทคนิคขั้นต่ำ

สามมาตรการควบคุมประกอบเป็นพื้นฐานสำหรับการปฏิบัติตาม NAIH:

การตรวจจับ TAJ-szám ด้วย modulo-10 checksum — การจับคู่รูปแบบเพียงอย่างเดียวไม่เพียงพอ
การตรวจจับ adóazonosító jel ด้วยการตรวจสอบ checksum — สำคัญสำหรับ HR และการเงิน
NER ภาษาฮังการีพร้อมรองรับการประกอบคำ — ต้องจัดการ ő, ű และรูปแบบการเข้ารหัส

ดู คู่มือ BFDI เยอรมนี ของเราเพื่อเปรียบเทียบวิธีที่ DPA ในยุโรปกลางกำหนดข้อกำหนดทางเทคนิค สำหรับช่องว่างภาษาที่คล้ายกันในยุโรปกลาง ดู คู่มือ Czech ÚOOÚ ของเรา

แหล่งที่มา

บทความที่เกี่ยวข้อง

GDPR & การปฏิบัติตาม

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

เริ่มทดลองใช้ฟรี ดูฟีเจอร์

NAIH ฮังการี: TAJ-Szám และ Adóazonosító Jel

เหตุใด NER ภาษาฮังการีจึงได้คะแนนต่ำ

TAJ-Szám: หมายเลขประกันสังคมของฮังการี

Adóazonosító Jel: หมายเลขภาษีของฮังการี

ข้อกำหนด DPIA ของ NAIH สำหรับระบบ AI

การควบคุมทางเทคนิคขั้นต่ำ

แหล่งที่มา

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

NAIH ฮังการี: TAJ-Szám และ Adóazonosító Jel

NAIH ฮังการี: TAJ-Szám และข้อกำหนดทางเทคนิค GDPR

เหตุใด NER ภาษาฮังการีจึงได้คะแนนต่ำ

TAJ-Szám: หมายเลขประกันสังคมของฮังการี

Adóazonosító Jel: หมายเลขภาษีของฮังการี

ข้อกำหนด DPIA ของ NAIH สำหรับระบบ AI

การควบคุมทางเทคนิคขั้นต่ำ

แหล่งที่มา

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow