मिश्रित-भाषा PII: एकल-भाषा टूल क्यों चूक जाते हैं
2026 के लिए अपडेट किया गया।
दस्तावेज़ भाषा की सीमाएँ पार करते हैं
एक स्विस फ़ार्मा कंपनी का कार्य अनुबंध एक ही भाषा में नहीं होता। स्विट्ज़रलैंड की चार आधिकारिक भाषाएँ हैं। स्विस कंपनियाँ मुख्य भाग में जर्मन, कानूनी खंडों में फ्रेंच और वैश्विक अनुभागों में अंग्रेज़ी मिश्रित करती हैं। यह एक ही पैराग्राफ में हो सकता है।
एक बेल्जियाई बोर्ड मिनट में डच पाठ, फ्रेंच औपचारिक भाग और अंग्रेज़ी सारांश होते हैं। एक वैश्विक डेटा सौदे में अंग्रेज़ी तकनीकी विशिष्टताएँ और जर्मन अधिकार खंड हो सकते हैं।
यह दुर्लभ नहीं है। DACH और EU कंपनियों के लिए यह सामान्य है। एकभाषीय PII टूल इन फ़ाइलों पर विफल होते हैं।
45% चूक दर का अंतर
एकभाषीय NER टूल में मिश्रित फ़ाइलों पर 45% अधिक PII चूक दर होती है। यह शुद्ध एकल-भाषा फ़ाइलों की तुलना में है।
मूल कारण डिज़ाइन है। जर्मन पाठ पर प्रशिक्षित मॉडल स्थानीय नाम फ़ॉर्म और पता नियमों को जानता है। जब यह फ्रेंच अनुभाग से टकराता है, तो यह अपनी प्रशिक्षण सीमा से बाहर होता है। उस भाग में नाम और IDs की खराब डिटेक्शन होती है। मॉडल कमज़ोर नहीं है — इसे एक अलग भाषा के लिए बनाया गया था।
EDPB 2024 ने पाया कि 72% EU कंपनियाँ एक साथ तीन या अधिक भाषाओं में फ़ाइलें संसाधित करती हैं। Gartner 2024 ने पाया कि बहुभाषी HR फ़ाइलों में एकल-भाषा वाली फ़ाइलों की तुलना में प्रति पृष्ठ 67% अधिक PII होती है। अधिक PII और अधिक चूक मिलकर अंतर को बढ़ाते हैं।
लागू होने वाले नियमों के लिए हमारा GDPR गाइड देखें।
त्रुटियाँ कहाँ केंद्रित होती हैं
विफलता किसी फ़ाइल में समान रूप से नहीं होती। खंड विराम पर PII सबसे अधिक जोखिम में होती है।
इस खंड पर विचार करें: जर्मन वाक्य संरचना, एक फ्रेंच कर्मचारी नाम, और एक फ्रेंच जन्मतिथि — सब एक पंक्ति में। NER मॉडल वहाँ फ्रेंच नाम देखता है जहाँ उसे स्थानीय नाम की उम्मीद होती है। हो सकता है वह उसे फ़्लैग न करे। फ्रेंच-प्रशिक्षित मॉडल जर्मन संदर्भ शब्द देखता है और संरचना नहीं पढ़ पाता।
HR फ़ाइलें इसे महंगा बनाती हैं। Gartner ने मिश्रित HR फ़ाइलों में प्रति पृष्ठ 67% अधिक PII पाई। खंड विराम पर त्रुटियाँ उस फ़ाइल प्रकार में सबसे अधिक नुकसान पहुँचाती हैं जिसमें सबसे अधिक व्यक्तिगत डेटा होता है।
क्रॉस-लिंगुअल मॉडल इसे ठीक करते हैं
XLM-RoBERTa एक साथ 100 भाषाओं के पाठ पर प्रशिक्षित होता है। यह प्रति भाषा नया मॉडल नहीं उपयोग करता। यह सीखता है कि नाम डिटेक्शन भाषाई संदर्भों में एक ही तरह से काम करती है। एक नाम और उसका संदर्भ जर्मन, फ्रेंच और अंग्रेज़ी में एक ही संरचना साझा करते हैं।
मिश्रित फ़ाइलों के लिए, मॉडल खंड विराम पर स्विच नहीं करता। यह पूरे पाठ को एक ब्लॉक के रूप में पढ़ता है। यह हर बिंदु पर एक ही इकाई नियम लागू करता है।
जर्मन और फ्रेंच पर फ़ाइन-ट्यूनिंग प्रत्येक भाषा के लिए अकेले सटीकता जोड़ती है। लेकिन क्रॉस-लिंगुअल आधार उन विरामों पर PII पकड़ता है जहाँ एकल-भाषा मॉडल विफल होते हैं।
DACH कंपनियों के लिए जिनकी फ़ाइलें भाषाई अनुभागों को पार करती हैं, यह एक वास्तविक लाभ है। एकल-भाषा टूल द्वारा विराम पर छूटी इकाइयाँ क्रॉस-लिंगुअल मॉडल द्वारा मिलती हैं।
anonym.legal इसे कैसे संभालता है, इसके लिए हमारा सुरक्षा उपाय पृष्ठ देखें।
अभी उठाए जाने वाले कदम
अपने टूल का दायरा जाँचें। अपने विक्रेता से लोकेल के अनुसार रिकॉल स्कोर माँगें। "कई भाषाओं का समर्थन करता है" का मतलब हो सकता है पहले मशीन अनुवाद के माध्यम से पाठ जाता है। यह मूल स्कैनिंग नहीं है।
अपनी फ़ाइलों को लोकेल के अनुसार मैप करें। 60% जर्मन, 30% फ्रेंच और 10% अंग्रेज़ी वाली DACH कंपनी के अलग-अलग अंतर हैं।
खंड-विराम नमूनों के साथ परीक्षण करें। दस मिश्रित-भाषा खंड उदाहरणों के साथ एक परीक्षण सेट बनाएँ। पूरी फ़ाइल में रिकॉल जाँचें, न केवल मुख्य-भाषा भागों में।
अपने DPIAs जाँचें। एकल-भाषा रिकॉर्ड पर बनाया गया DPIA अधूरा हो सकता है। किसी ऑडिट के करने से पहले इसे ठीक करें।
API विवरण और इकाई कवरेज के लिए मूल्य निर्धारण पृष्ठ देखें।
anonym.legal XLM-RoBERTa के साथ-साथ मूल spaCy और Stanza मॉडल का उपयोग करता है। यह जर्मन, फ्रेंच, अंग्रेज़ी और 45 अन्य लोकेल में खंड विराम के पार PII खोजता है।