GDPR की कोई भाषा प्राथमिकता नहीं है
सामान्य डेटा संरक्षण विनियमन जर्मन, फ्रेंच, पोलिश, स्वीडिश, स्पेनिश, इतालवी और उन सभी अन्य भाषाओं में व्यक्तिगत डेटा पर समान रूप से लागू होता है जिनका प्रसंस्करण उन संगठनों द्वारा किया जाता है जो विनियमन के अधीन हैं। जर्मन ग्राहक डेटा में चूक गया पहचानकर्ता अंग्रेजी ग्राहक डेटा में चूक गए पहचानकर्ता के समान नियामक जोखिम पैदा करता है। GDPR भाषा के आधार पर भेद नहीं करता।
अधिकांश PII पहचानने वाले उपकरण ऐसा करते हैं।
प्रमुख व्यावसायिक और ओपन-सोर्स PII पहचानने वाले उपकरण मुख्य रूप से अंग्रेजी पाठ पर बनाए और बेंचमार्क किए गए थे। उनके संस्थान पहचानकर्ता इसे दर्शाते हैं: अमेरिकी सामाजिक सुरक्षा नंबर, अमेरिकी ड्राइविंग लाइसेंस, अमेरिकी पासपोर्ट प्रारूप, और सामान्य सार्वभौमिक पहचानकर्ता (ईमेल पते, NANP प्रारूप में फोन नंबर, क्रेडिट कार्ड नंबर)। गैर-अंग्रेजी राष्ट्रीय पहचानकर्ताओं के लिए पहचानकर्ता — जब वे मौजूद होते हैं — अक्सर कम सटीक, कम बनाए रखे जाते हैं, और झूठे नकारात्मक उत्पन्न करने की अधिक संभावना होती है।
EU सदस्य राज्यों में संचालित उद्यमों के लिए, यह एक प्रणालीगत अनुपालन अंतर पैदा करता है: उपकरण रिपोर्ट करता है कि PII का पता लगाया गया है और हटा दिया गया है, लेकिन गैर-अंग्रेजी पहचानकर्ता जो कुछ अधिकार क्षेत्रों में सबसे बड़ा GDPR जोखिम दर्शाते हैं, डेटा में बने रहते हैं।
राष्ट्रीय पहचानकर्ताओं के बीच संरचनात्मक अंतर
अंग्रेजी-केंद्रित उपकरणों और वास्तव में बहुभाषी उपकरणों के बीच का अंतर केवल अधिक regex पैटर्न जोड़ने का मामला नहीं है। EU सदस्य राज्यों में राष्ट्रीय पहचानकर्ता प्रारूप संरचनात्मक रूप से भिन्न होते हैं, जिनका सही पहचान के लिए अधिकार क्षेत्र-विशिष्ट ज्ञान की आवश्यकता होती है।
जर्मन Steuer-Identifikationsnummer (Steuer-ID): 11-अंक का कर पहचानकर्ता जिसमें Luhn फ़ॉर्मूला वेरिएंट के आधार पर एक विशिष्ट चेकसम एल्गोरिदम होता है। एक सामान्य SSN regex इस प्रारूप से मेल नहीं खाएगा। एक regex जो किसी भी 11-अंक के नंबर से मेल खाता है, जर्मन वित्तीय दस्तावेजों में विशाल झूठे सकारात्मक दर उत्पन्न करेगा।
फ्रेंच NIR (Numéro d'inscription au répertoire): 15-अंक का पहचानकर्ता जिसमें धारक का लिंग, जन्म वर्ष, जन्म माह, जन्म विभाग या देश का कोड, जन्म क्रम संख्या, और 2-अंक की नियंत्रण कुंजी शामिल होती है। पहचान के लिए संरचना को समझने और नियंत्रण कुंजी को मान्य करने की आवश्यकता होती है।
स्वीडिश Personnummer: 10-अंक का पहचानकर्ता (कभी-कभी शताब्दी संकेतक के साथ 12 अंक) जिसमें Luhn चेक अंक होता है। प्रारूप उम्र के आधार पर भिन्न होता है: 1990 से पहले जन्मे व्यक्तियों को - के बजाय + विभाजक का उपयोग करना होता है, जो पहचान की जाने वाली प्रारूप को बदलता है।
पोलिश PESEL: 11-अंक का पहचानकर्ता जो जन्म तिथि, लिंग, और एक चेक अंक को कोड करता है जो एक भारित योग एल्गोरिदम के आधार पर होता है। सही पहचान के लिए प्रारूप मिलान और चेकसम मान्यता दोनों की आवश्यकता होती है।
ये सामान्य पैटर्न पर प्रारूप भिन्नताएँ नहीं हैं। ये संरचनात्मक रूप से भिन्न पहचानकर्ता हैं जिनकी लंबाई, मान्यता एल्गोरिदम, और स्थिति कोडिंग योजनाएँ भिन्न होती हैं। एक अंग्रेजी-प्रशिक्षित NER मॉडल जो पाठ में एक फ्रेंच NIR का सामना करता है, इसे एक राष्ट्रीय पहचानकर्ता के रूप में पहचान नहीं पाएगा — यह या तो इसे अनदेखा करेगा या, यदि यह किसी अन्य पैटर्न से मेल खाता है, तो इसे गलत वर्गीकृत करेगा।
व्यावहारिक अनुपालन परिणाम
एक यूरोपीय BPO के अनुपालन अधिकारी के लिए जो एक साथ जर्मनी, फ्रांस, पोलैंड, और नीदरलैंड से ग्राहक सेवा डेटा संसाधित कर रहा है, व्यावहारिक परिणाम गैर-अंग्रेजी ग्राहक रिकॉर्ड में एक प्रणालीगत पहचान अंतर है।
अनुपालन अधिकारी का उपकरण सफल PII अज्ञातकरण की रिपोर्ट करता है। अज्ञात डेटा में अभी भी जर्मन रिकॉर्ड में Steuer-IDs, फ्रेंच रिकॉर्ड में NIR नंबर, और पोलिश रिकॉर्ड में PESEL नंबर शामिल हैं — क्योंकि इन प्रारूपों के लिए उपकरण के पहचानकर्ता या तो अनुपस्थित हैं या अपर्याप्त रूप से सटीक हैं।
जब अज्ञात डेटा सेट का बाद में विश्लेषण, परीक्षण, या शोध भागीदार के साथ साझा किया जाता है, तो "अज्ञात" डेटा में अभी भी पुनः पहचान योग्य राष्ट्रीय पहचानकर्ता डेटा शामिल होता है। GDPR उल्लंघन उपकरण के आउटपुट लॉग में दिखाई नहीं देता। यह तब दिखाई देता है जब डेटा विषय पहुंच अनुरोध, एक पर्यवेक्षी प्राधिकरण ऑडिट, या डेटा उल्लंघन यह प्रकट करता है कि गैर-अंग्रेजी पहचानकर्ता हटा नहीं गए थे।
हाइब्रिड बहुभाषी PII पहचान दृष्टिकोणों की तुलना एकल-भाषा अंग्रेजी-केंद्रित उपकरणों के खिलाफ करने वाले शोध ने पाया कि हाइब्रिड दृष्टिकोण F1 स्कोर 0.60 से 0.83 तक प्राप्त करते हैं — गैर-अंग्रेजी पहचानकर्ता प्रारूपों पर लागू अंग्रेजी-केवल उपकरणों की लगभग शून्य प्रदर्शन की तुलना में।
व्यापक कवरेज के लिए क्या आवश्यक है
EU GDPR अनुपालन के लिए सच्ची बहुभाषी PII पहचान के लिए तीन आर्किटेक्चरल परतों की आवश्यकता होती है जो संयोजन में काम करती हैं:
भाषा-देशी spaCy मॉडल नामों, संगठनों, और स्थानों की भाषा में अर्थपूर्ण समझ प्रदान करते हैं। एक spaCy मॉडल जो जर्मन पाठ पर प्रशिक्षित है, समझता है कि "Müller" जर्मन संदर्भ में एक सामान्य उपनाम है — केवल एक बड़े अक्षर वाला शब्द नहीं। 25 उच्च-संसाधन EU भाषाओं के लिए मॉडल मौजूद हैं।
Stanza NLP मॉडल उन अतिरिक्त भाषाओं तक कवरेज बढ़ाते हैं जो spaCy द्वारा समान सटीकता स्तर पर कवर नहीं की गई हैं।
क्रॉस-भाषाई ट्रांसफार्मर मॉडल (XLM-RoBERTa) उस क्रॉस-भाषाई अस्पष्टता को संभालते हैं जिसे शुद्ध पैटर्न मिलान संबोधित नहीं कर सकता — यह पहचानते हुए कि एक फ्रेंच वाक्य में एक नाम एक व्यक्ति का नाम है भले ही पहचान इंजन उस नाम पर विशेष रूप से प्रशिक्षित न हो।
अधिकार क्षेत्र-विशिष्ट मान्यता के साथ Regex संरचित राष्ट्रीय पहचानकर्ताओं को कवर करता है — Steuer-ID, NIR, PESEL, Personnummer — चेकसम मान्यता के साथ जो झूठे सकारात्मक को समाप्त करता है।
उन अनुपालन अधिकारियों के लिए जिनका उपकरण वर्तमान में गैर-अंग्रेजी पहचानकर्ताओं को चूकता है: अंतर संरचनात्मक है, कॉन्फ़िगरेशन नहीं। शब्द सूचियों को जोड़ना या regex कवरेज का विस्तार करना सीमांत सुधार प्रदान करता है। बहुभाषी डेटा के लिए व्यापक EU GDPR अनुपालन के लिए एक उपकरण की आवश्यकता होती है जो EU पहचानकर्ता कवरेज को एक डिज़ाइन आवश्यकता के रूप में बनाए, न कि एक बाद के विचार के रूप में।
स्रोत: