ब्लॉग पर वापस जाएँतकनीकी

मध्य पूर्व अनुपालन अंतर: क्यों अरबी और हिब्रू PII...

GDPR बोस्फोरस पर समाप्त नहीं होता। EU व्यापार कार्यप्रवाह में अरबी और हिब्रू PII प्रणालीगत रूप से असुरक्षित है। MENA-EU संचालन के लिए XLM-RoBERTa...

April 1, 20268 मिनट पढ़ें
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

RTL अनुपालन अंतर

अरबी और हिब्रू उन संगठनों के लिए एक प्रणालीगत PII पहचान विफलता प्रस्तुत करते हैं जो मुख्य रूप से बाएं से दाएं लैटिन-स्क्रिप्ट भाषाओं के लिए बनाए गए उपकरणों का उपयोग करते हैं। समस्या केवल दिशा की नहीं है। दाएं से बाएं स्क्रिप्ट को विभिन्न टोकनाइजेशन, विभिन्न विभाजन लॉजिक, और LTR दृष्टिकोणों की तुलना में विभिन्न एंटिटी सीमा पहचान की आवश्यकता होती है। अंग्रेजी डेटा पर प्रशिक्षित मानक NER सिस्टम LTR विभाजन धारणाओं को लागू करते हैं जो अरबी और हिब्रू पाठ में गलत एंटिटी सीमाएँ उत्पन्न करते हैं।

दिशात्मकता के अलावा, अरबी रूपविज्ञान एक गहरा चुनौती जोड़ता है। अरबी एक मूल-आधारित प्रणाली का उपयोग करता है जहां एकल मूल प्रीफिक्स और सफिक्स के माध्यम से दर्जनों सतही रूप उत्पन्न कर सकता है। एक व्यक्ति का नाम — मोहम्मद — "मोहम्मद," "अल-मोहम्मद," "बिन मोहम्मद," "मोहम्मद अल-रशीद," या व्याकरणिक संदर्भ के आधार पर कई रूपांतरित रूपों में प्रकट हो सकता है। पश्चिमी नाम प्रारूपों के लिए डिज़ाइन किए गए Regex पैटर्न इस रूपविज्ञान भिन्नता को कैप्चर नहीं कर सकते। अंग्रेजी डेटा पर मुख्य रूप से प्रशिक्षित एक ML मॉडल वैकल्पिक सतही रूपों को चूक जाएगा।

GDPR भाषा को अनुपालन सीमा के रूप में मान्यता नहीं देता। MENA ग्राहकों से अरबी-भाषा ग्राहक पत्राचार को संसाधित करने वाली EU कंपनी को फ्रेंच-भाषा पत्राचार के लिए समान डेटा सुरक्षा मानकों को लागू करना चाहिए। अरबी PII का तकनीकी विफलता GDPR के अनुच्छेद 32 के तहत एक कानूनी अनुपालन विफलता है।

KYC उपयोग मामला

दुबई में एक फिनटेक कंपनी EU ग्राहकों के लिए KYC (अपने ग्राहक को जानें) दस्तावेज़ों को संसाधित करने का पैटर्न दर्शाती है। अरब ग्राहकों के लिए KYC दस्तावेज़ों में अरबी ग्राहक नाम, UAE एमिरात आईडी (15-अंकों का प्रारूप), और अंग्रेजी व्यापार पत्राचार के साथ अरबी-स्क्रिप्ट पते शामिल होते हैं।

एमिरात आईडी प्रारूप — 784-XXXX-XXXXXXX-X — में एक विशिष्ट संरचना है: देश कोड 784, जन्म वर्ष, सात-अंकों का अनुक्रम, जांच अंक। पश्चिमी PII उपकरण जो UAE-विशिष्ट एंटिटी परिभाषाओं की कमी रखते हैं, इस पहचानकर्ता प्रारूप का पता नहीं लगा सकते। अरबी नाम क्षेत्रों को लैटिन-स्क्रिप्ट NER द्वारा संसाधित किया जाता है जो गलत विभाजन उत्पन्न करता है। परिणाम: KYC अनुपालन कार्यप्रवाह में प्रणालीगत PII अदृश्यता।

GDPR दायित्वों के तहत इस डेटा को कवर करने वाले संगठनों के लिए, तकनीकी अंतर सीधे नियामक जोखिम उत्पन्न करता है। GDPR अनुच्छेद 32 "उचित तकनीकी और संगठनात्मक उपायों" की आवश्यकता करता है — एक प्रणाली जो दुनिया की 22% भाषाओं में पहचानकर्ताओं का पता नहीं लगा सकती, वह एक उचित तकनीकी उपाय नहीं है।

हिब्रू और मिश्रित-भाषा दस्तावेज़

हिब्रू संबंधित चुनौतियाँ प्रस्तुत करता है। हिब्रू वर्णमाला दाएं से बाएं लिखी जाती है; इस्राइली आईडी नंबरों में एक विशिष्ट मान्यता एल्गोरिदम (9-अंकों के इस्राइली पहचान नंबरों के लिए लुहन-जैसा चेकसम) होता है। इस्राइली कानूनी दस्तावेज़ों में एक ही दस्तावेज़ में हिब्रू पाठ, अरबी पाठ, और अंग्रेजी पाठ शामिल हो सकते हैं — विशेष रूप से व्यावसायिक अनुबंधों में जहां हिब्रू प्राथमिक भाषा है, अंग्रेजी सेवा की शर्तें संदर्भ द्वारा शामिल की जाती हैं, और अरबी अरबी-भाषी पक्षों के लिए उपयोग की जाती है।

एक ही पाठ ब्लॉक में कई स्क्रिप्ट के साथ मिश्रित-भाषा दस्तावेज़ों को एंटिटी पहचान से पहले स्क्रिप्ट पहचान की आवश्यकता होती है। बिना स्क्रिप्ट पहचान के, एकल NER पास सेमिटिक स्क्रिप्ट पर लैटिन टोकनाइजेशन लागू कर सकता है, जिससे पूरी तरह से गलत विभाजन उत्पन्न होता है।

Nature Scientific Reports (2025) में प्रकाशित शोध ने विशेष रूप से अरबी PII पहचान के लिए क्रॉस-भाषाई NER प्रदर्शन की जांच की, जिसमें मानक मॉडलों के लिए F1 स्कोर 0.60–0.83 और उद्देश्य-निर्मित क्रॉस-भाषाई दृष्टिकोणों के लिए 0.88+ पाया गया (अरबी NER डेटा पर फाइन-ट्यून किया गया XLM-RoBERTa)।

क्रॉस-भाषाई आर्किटेक्चर की आवश्यकता

प्रभावी अरबी और हिब्रू PII पहचान के लिए तीन घटकों की आवश्यकता होती है जो पश्चिमी-प्रथम उपकरणों में आमतौर पर कमी होती है:

RTL पाठ हैंडलिंग: सही पाठ प्रवाह रेंडरिंग के लिए यूनिकोड द्विदिशात्मक एल्गोरिदम अनुपालन, और दाएं से बाएं पाठ में शब्द सीमाओं का सम्मान करने वाला RTL-सचेत टोकनाइजेशन।

रूपविज्ञान-सचेत NER: या तो एक रूपविज्ञान विश्लेषक (अरबी के लिए फरासा, या समकक्ष) या एक ट्रांसफार्मर मॉडल जो अरबी/हिब्रू NER डेटा पर फाइन-ट्यून किया गया है और जिसने रूपविज्ञान भिन्नता सीखी है।

क्षेत्र-विशिष्ट एंटिटी परिभाषाएँ: एमिरात आईडी, इस्राइली आईडी, सऊदी राष्ट्रीय आईडी, मिस्री राष्ट्रीय आईडी, और अन्य MENA-विशिष्ट पहचानकर्ता प्रारूपों के लिए स्पष्ट एंटिटी प्रकार परिभाषाओं की आवश्यकता होती है जिनमें प्रारूप विशिष्टताएँ होती हैं।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।