RTL अनुपालन अंतराल

GDPR बोस्पोरस पर समाप्त नहीं होती। EU कंपनियाँ जो लैटिन-स्क्रिप्ट टूल्स का उपयोग करती हैं, उनके पास एक अंध स्थान है। यह वास्तविक है और इसे बड़े पैमाने पर नजरअंदाज किया जाता है।

समस्या केवल टेक्स्ट की दिशा नहीं है। दाएं-से-बाएं लिपियों को अलग टोकनाइज़ेशन की आवश्यकता है। उन्हें अलग सेगमेंटेशन की आवश्यकता है। LTR टेक्स्ट की तुलना में एंटिटी सीमाएं अलग तरीके से काम करती हैं। अंग्रेजी पर प्रशिक्षित NER सिस्टम LTR नियम लागू करते हैं। वे नियम RTL टेक्स्ट पर टूट जाते हैं। वे गलत एंटिटी सीमाएं देते हैं।

अरबी रूपविज्ञान चीजों को और कठिन बनाता है। भाषा जड़ों का उपयोग करती है। एक जड़ से दर्जनों शब्द रूप मिलते हैं। मोहम्मद जैसा नाम "अल-मोहम्मद," "बिन मोहम्मद," या "मोहम्मद अल-रशीद" के रूप में प्रकट हो सकता है। पश्चिमी नामों के लिए बने रेगेक्स पैटर्न इन रूपों को चूक जाते हैं। अंग्रेजी पर प्रशिक्षित मॉडल भी उन्हें चूक जाते हैं।

GDPR भाषा को अनुपालन सीमा के रूप में नहीं मानती। एक EU फर्म जो MENA ग्राहकों के मेल को संसाधित करती है, उसे फ्रेंच मेल के समान नियमों का पालन करना होगा। RTL टेक्स्ट में PII को मिस करना GDPR अनुच्छेद 32 के तहत एक कानूनी विफलता है।

KYC उपयोग का मामला

EU ग्राहकों के लिए KYC दस्तावेज़ संसाधित करने वाला एक दुबई फिनटेक यह स्पष्ट रूप से दिखाता है।

अरब ग्राहकों के KYC फाइलों में RTL लिपि में नाम, UAE एमिरेट्स ID, और RTL पते होते हैं। ये अंग्रेजी व्यावसायिक टेक्स्ट के साथ होते हैं।

एमिरेट्स ID का प्रारूप 784-XXXX-XXXXXXX-X है। देश कोड 784। जन्म वर्ष। सात अंक। चेक अंक। कोई UAE एंटिटी परिभाषाएं न होने वाले पश्चिमी PII टूल्स इस प्रारूप को नहीं ढूंढ सकते। नाम फ़ील्ड लैटिन-स्क्रिप्ट NER से गुजरते हैं। सेगमेंटेशन गलत है। PII कार्यप्रवाह में अदृश्य हो जाती है।

इस डेटा पर GDPR कर्तव्यों वाली फर्मों के लिए, अंतराल वास्तविक कानूनी जोखिम पैदा करता है। GDPR अनुच्छेद 32 के लिए उचित तकनीकी उपाय आवश्यक हैं। एक टूल जो दुनिया की 22% भाषाओं में पहचानकर्ताओं को मिस करता है, वह उचित उपाय नहीं है।

हिब्रू और मिश्रित-भाषा दस्तावेज़

हिब्रू में समान समस्याएं हैं। लिपि दाएं से बाएं चलती है। इजरायली ID नंबर नौ अंकों पर लुहन-जैसे परीक्षण के साथ चेकसम का उपयोग करते हैं।

इजरायली कानूनी दस्तावेज़ अक्सर एक फाइल में हिब्रू, अरबी-लिपि टेक्स्ट, और अंग्रेजी को मिलाते हैं। यह उन अनुबंधों में सामान्य है जहां हिब्रू मुख्य भाषा है और अंग्रेजी शब्द संदर्भ द्वारा जोड़े जाते हैं।

मिश्रित-लिपि फाइलों को NER से पहले स्क्रिप्ट डिटेक्शन की आवश्यकता है। इसके बिना, एक ही NER पास RTL लिपियों पर लैटिन नियम लागू करता है। आउटपुट गलत है।

Nature Scientific Reports (2025) में अनुसंधान ने RTL PII पर क्रॉस-लिंगुअल NER का परीक्षण किया। मानक मॉडल ने 0.60–0.83 का F1 स्कोर दिया। RTL NER डेटा पर फाइन-ट्यून किए गए XLM-RoBERTa ने 0.88 और उससे ऊपर स्कोर किया।

क्रॉस-लिंगुअल आर्किटेक्चर आवश्यकता

अच्छे RTL PII डिटेक्शन के लिए तीन चीजें चाहिए जो पश्चिमी-प्रथम टूल्स में आमतौर पर नहीं होती।

RTL टेक्स्ट हैंडलिंग: सही टेक्स्ट प्रवाह के लिए Unicode द्विदिशात्मक अनुपालन। RTL-जागरूक टोकनाइज़ेशन जो दाएं-से-बाएं टेक्स्ट में शब्द सीमाएं ढूंढता है।

रूपविज्ञान-जागरूक NER: अरबी के लिए Farasa जैसा रूपात्मक विश्लेषक, या RTL NER डेटा पर फाइन-ट्यून किया गया ट्रांसफार्मर मॉडल। मॉडल को रूपात्मक भिन्नता सीखनी चाहिए।

क्षेत्र-विशिष्ट एंटिटी प्रकार: एमिरेट्स ID, इजरायली ID, सऊदी राष्ट्रीय ID, और मिस्री राष्ट्रीय ID प्रत्येक को प्रारूप नियमों के साथ स्पष्ट परिभाषाओं की आवश्यकता है। सामान्य पश्चिमी टूल्स में ये नहीं होते।

देखें कि हमारी बहुभाषी NER पाइपलाइन 48 भाषाओं में स्क्रिप्ट डिटेक्शन कैसे संभालती है। हम जिन MENA पहचानकर्ता प्रकारों का समर्थन करते हैं उनकी पूरी सूची के लिए, एंटिटी कैटलॉग पर जाएं। हमारा GDPR अनुपालन गाइड बताता है कि डिटेक्शन अंतराल अनुच्छेद 32 जोखिम कैसे पैदा करते हैं।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

अरबी और हिब्रू PII: पश्चिमी टूल्स विफल हैं

RTL अनुपालन अंतराल

KYC उपयोग का मामला

हिब्रू और मिश्रित-भाषा दस्तावेज़

क्रॉस-लिंगुअल आर्किटेक्चर आवश्यकता

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

अरबी और हिब्रू PII: पश्चिमी टूल्स विफल हैं

RTL अनुपालन अंतराल

KYC उपयोग का मामला

हिब्रू और मिश्रित-भाषा दस्तावेज़

क्रॉस-लिंगुअल आर्किटेक्चर आवश्यकता

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow