केवल-अंग्रेज़ी PII टूल: GDPR अंतराल
GDPR की कोई भाषा प्राथमिकता नहीं है
GDPR किसी भी भाषा में व्यक्तिगत डेटा को कवर करता है। जर्मन, फ्रेंच, पोलिश, स्वीडिश — सभी समान रूप से कवर हैं। एक छूटी हुई Steuer-ID उतना ही कानूनी जोखिम बनाती है जितना एक छूटा हुआ Social Security Number। कानून को भाषा की परवाह नहीं है।
अधिकांश PII डिटेक्शन टूल को परवाह है।
प्रमुख व्यावसायिक और ओपन-सोर्स टूल अंग्रेज़ी टेक्स्ट के लिए बनाए गए थे। उनके एंटिटी डिटेक्टर इसे दर्शाते हैं। वे US Social Security Numbers, US ड्राइविंग लाइसेंस, और NANP फ़ोन फ़ॉर्मेट को अच्छी तरह कवर करते हैं। गैर-अंग्रेज़ी राष्ट्रीय ID के लिए डिटेक्टर कम सटीक हैं। उन्हें कम रखरखाव मिलता है। वे वास्तविक पहचानकर्ताओं को अधिक बार चूकते हैं।
EU सदस्य राज्यों में फर्मों के लिए, यह एक कवरेज अंतराल बनाता है। टूल कहता है डिटेक्शन पूर्ण है। लेकिन गैर-अंग्रेज़ी पहचानकर्ता डेटा में बने रहते हैं। ये अक्सर वे पहचानकर्ता होते हैं जिनमें कुछ देशों में सबसे अधिक GDPR एक्सपोज़र होता है।
डेटा प्राधिकरण इसे देखते हैं। ऑडिटर इसे ढूंढते हैं। एक टूल अंग्रेज़ी रिकॉर्ड पर अच्छा काम कर सकता है। लेकिन अगर यह जर्मन या फ्रेंच रिकॉर्ड पर विफल होता है, तो यह अनुपालित नहीं है। एक साफ रिपोर्ट यह नहीं बदलती।
राष्ट्रीय ID संरचना में भिन्न हैं
केवल-अंग्रेज़ी टूल और बहुभाषी टूल के बीच का अंतर अधिक regex पैटर्न जोड़ने के बारे में नहीं है। EU राष्ट्रीय पहचानकर्ता एक-दूसरे से बहुत भिन्न हैं। उन्हें सही ढंग से पहचानने के लिए देश-विशिष्ट तर्क की आवश्यकता है।
जर्मन Steuer-Identifikationsnummer (Steuer-ID): 11 अंक। यह Luhn फ़ॉर्मूला वेरिएंट पर आधारित चेकसम का उपयोग करता है। एक सामान्य SSN regex इसे मैच नहीं करेगा। किसी भी 11-अंक संख्या के लिए regex जर्मन दस्तावेज़ों में बहुत अधिक false positives बनाता है।
फ्रेंच NIR (Numéro d'inscription au répertoire): 15 अंक। फ़ॉर्मेट लिंग, जन्म वर्ष, जन्म माह, और जन्म विभाग को एन्कोड करता है। इसमें जन्म क्रम और 2-अंक नियंत्रण कुंजी भी शामिल है। सही डिटेक्शन के लिए नियंत्रण कुंजी को सत्यापित करना होगा।
स्वीडिश Personnummer: Luhn चेक डिजिट के साथ 10 अंक। 1990 से पहले जन्मे लोग - के बजाय + सेपरेटर का उपयोग करते हैं। यह उस फ़ॉर्मेट को बदल देता है जिसे पहचाना जाना चाहिए।
पोलिश PESEL: 11 अंक। यह जन्म तिथि, लिंग, और भारित योगों पर आधारित चेक डिजिट को एन्कोड करता है। सही डिटेक्शन के लिए फ़ॉर्मेट मिलान और चेकसम सत्यापन दोनों की आवश्यकता है।
ये एक सामान्य पैटर्न के वेरिएंट नहीं हैं। हर एक की अलग लंबाई है। हर एक अलग जांच विधि का उपयोग करता है। हर एक अलग स्थिति योजना में डेटा एन्कोड करता है। फ्रेंच NIR देखने वाला अंग्रेज़ी-प्रशिक्षित NER मॉडल इसे राष्ट्रीय पहचानकर्ता के रूप में नहीं पहचानेगा। यह इसे अनदेखा करेगा या गलत वर्गीकृत करेगा।
व्यावहारिक अनुपालन जोखिम
एक यूरोपीय BPO में एक अनुपालन अधिकारी की कल्पना करें। वे एक साथ जर्मनी, फ्रांस, पोलैंड और नीदरलैंड से डेटा प्रोसेस करते हैं। उनका टूल सफल PII गुमनामीकरण की रिपोर्ट करता है।
लेकिन परिणाम पूर्ण नहीं है। जर्मन रिकॉर्ड में Steuer-ID बनी रहती है। फ्रेंच रिकॉर्ड में NIR नंबर बने रहते हैं। पोलिश रिकॉर्ड में PESEL नंबर बने रहते हैं। इन फ़ॉर्मेट के लिए टूल के डिटेक्टर अनुपस्थित हैं या बहुत अयोग्य हैं।
बाद में, डेटासेट विश्लेषिकी या शोध भागीदार के पास जाता है। डेटा में अभी भी पुनः पहचाने जाने योग्य राष्ट्रीय पहचानकर्ता हैं। GDPR समस्या टूल के आउटपुट लॉग में नहीं दिखती। यह तब सामने आती है जब डेटा विषय एक्सेस अनुरोध आता है। यह डेटा प्राधिकरण ऑडिट के दौरान सामने आ सकती है। यह डेटा उल्लंघन के बाद सामने आ सकती है।
हाइब्रिड बहुभाषी दृष्टिकोणों की तुलना केवल-अंग्रेज़ी टूल से करने वाले शोध में स्पष्ट परिणाम मिले। हाइब्रिड विधियां यूरोपीय स्थानों में F1 स्कोर 0.60 से 0.83 प्राप्त करती हैं। केवल-अंग्रेज़ी टूल गैर-अंग्रेज़ी राष्ट्रीय ID फ़ॉर्मेट के लिए लगभग शून्य स्कोर करते हैं।
हमारे GDPR अनुपालन अवलोकन देखें कि ये अंतराल GDPR दायित्वों से कैसे मैप होते हैं।
पूर्ण कवरेज के लिए क्या चाहिए
EU GDPR अनुपालन के लिए सच्ची बहुभाषी PII डिटेक्शन को तीन परतों की जरूरत है।
भाषा-मूल spaCy मॉडल टेक्स्ट की भाषा में अर्थपूर्ण समझ प्रदान करते हैं। जर्मन टेक्स्ट पर प्रशिक्षित मॉडल जानता है कि "Müller" एक सामान्य जर्मन उपनाम है। मॉडल 25 उच्च-संसाधन EU भाषाओं के लिए मौजूद हैं।
Stanza NLP मॉडल spaCy में नहीं आने वाली भाषाओं तक कवरेज बढ़ाते हैं। यह अधिक EU भाषा समुदायों के लिए पहुंच जोड़ता है।
क्रॉस-लिंग्वल ट्रांसफ़ॉर्मर मॉडल (XLM-RoBERTa) क्रॉस-लैंग्वेज मामलों को संभालते हैं। फ्रेंच वाक्य में एक नाम को व्यक्ति नाम के रूप में पहचाना जाता है। यह तब भी काम करता है जब इंजन उस विशिष्ट नाम पर प्रशिक्षित नहीं था।
देश-विशिष्ट सत्यापन के साथ Regex संरचित राष्ट्रीय पहचानकर्ताओं को कवर करता है। Steuer-ID, NIR, PESEL, और Personnummer प्रत्येक को अपने चेकसम तर्क की जरूरत है। यह false positives को कम करता है। देश सत्यापन नियमों को विफल करने वाले अंक अनुक्रमों को फ़िल्टर किया जाता है।
यह अंतराल संरचनात्मक है। अधिक शब्द सूचियां या regex पैटर्न जोड़ने से केवल मामूली सुधार होता है। शुरू से EU पहचानकर्ता कवरेज बनाना ही एकमात्र विश्वसनीय दृष्टिकोण है।
अपने मौजूदा टूल की जांच करें
जर्मन, फ्रेंच, पोलिश, और डच रिकॉर्ड पर F1 स्कोर के लिए अपने वेंडर से पूछें। "कई भाषाओं का समर्थन करता है" का अक्सर मतलब होता है कि टूल पहले अनुवाद का उपयोग करता है। यह मूल स्कैनिंग नहीं है। GDPR अनुपालन के लिए मूल स्कैनिंग आवश्यक है।
वास्तविक राष्ट्रीय ID नमूनों के साथ परीक्षण करें। अपने संचालन में प्रत्येक ID प्रकार के 10 उदाहरणों के साथ एक छोटा परीक्षण सेट बनाएं। Steuer-ID, NIR, PESEL, Personnummer। डिटेक्शन दरें जांचें। यह पूर्ण F1 परीक्षण से तेज़ है और जल्दी अंतराल दिखाता है।
हमारे सुरक्षा और अनुपालन पृष्ठ देखें कि anonym.legal इन आवश्यकताओं को कैसे संबोधित करता है। एंटिटी प्रकार परिभाषाओं के लिए, एंटिटीज़ संदर्भ देखें।