ANSPDCP रोमानिया: CNP डिटेक्शन और GDPR जांच
2026 के लिए अपडेट किया गया
रोमानिया का डेटा निकाय ANSPDCP है। उसके 2024 के मूल्यांकन में पाया गया कि 78% PII टूल Cod Numeric Personal (CNP) का पता लगाने में विफल होते हैं। अधिकांश चेकसम चरण को छोड़ देते हैं। यह अंतर वास्तविक अनुपालन जोखिम पैदा करता है। रोमानिया कई पश्चिमी ग्राहकों के लिए EU डेटा प्रोसेस करता है। एक्सपोजर व्यापक है।
रोमानिया का सबसे डेटा-समृद्ध राष्ट्रीय ID
CNP एक 13 अंकों का राष्ट्रीय पहचानकर्ता है। प्रत्येक अंक समूह व्यक्तिगत डेटा रखता है:
- अंक 1: लिंग और सदी कोड। 1900–1999 में पैदा हुए पुरुष = 1। 1900–1999 में पैदा हुई महिला = 2। 2000+ में पैदा हुए पुरुष = 5। 2000+ में पैदा हुई महिला = 6। पुरुष विदेशी निवासी = 7। महिला विदेशी निवासी = 8। अन्य निवासी = 9।
- अंक 2–3: जन्म वर्ष के अंतिम दो अंक।
- अंक 4–5: जन्म महीना (01–12)।
- अंक 6–7: जन्म का दिन (01–31)।
- अंक 8–9: काउंटी कोड। 41 काउंटी और बुखारेस्ट के छह क्षेत्रों को कवर करता है (कोड 01–52)।
- अंक 10–12: उस दिन और काउंटी के भीतर जन्म क्रम।
- अंक 13: चेक अंक।
अकेला अंक 1 जैविक लिंग प्रकट करता है। GDPR Article 9 के तहत, यह इस संख्या को विशेष-श्रेणी डेटा आइटम बनाता है। इसे सामान्य व्यक्तिगत डेटा की तुलना में अधिक मजबूत सुरक्षा की आवश्यकता है।
चेक अंक कैसे काम करता है: पहले 12 अंक लें। प्रत्येक को उसके भार (2, 7, 9, 1, 4, 6, 3, 5, 8, 2, 7, 9) से गुणा करें। परिणाम जोड़ें। 11 से विभाजित करें और शेष लें। 10 का शेष चेक अंक 1 देता है। 11 का शेष मतलब कोड वैध नहीं है। कोई भी अन्य शेष चेक अंक है।
जो टूल इस परीक्षण को छोड़ते हैं उनके दो विफलता मोड हैं। पहला, किसी भी 13 अंकों की स्ट्रिंग को मिलान के रूप में फ्लैग किया जाता है (झूठे सकारात्मक)। दूसरा, एक दूषित संख्या पैटर्न जांच पास करती है लेकिन खराब डेटा रखती है। उस डेटा की समीक्षा की जरूरत है और वह चूक जाता है (झूठे नकारात्मक)।
रोमानियाई-भाषा दस्तावेजों में NER समस्याएं
पहचानकर्ताओं को ढूंढना काम का केवल एक हिस्सा है। रोमानियाई पाठ और अधिक पहचान बाधाएं जोड़ता है।
डायक्रिटिक्स: रोमानियाई में ș, ț, ă, â और î का उपयोग होता है। अन्य भाषाओं पर प्रशिक्षित टूल अक्सर इन अक्षरों वाले नामों को चूक जाते हैं। Latin-2 एन्कोडिंग में पुराने दस्तावेज और अधिक विफलताएं जोड़ते हैं।
पता प्रारूप: सड़क के प्रकार संक्षिप्त रूपों का उपयोग करते हैं — Str., Bd., Al., Cal. शहर और ग्राम के नाम स्थानीय नियमों का पालन करते हैं। फ्रांसीसी या जर्मन पतों के लिए बने पार्सर यहां खराब प्रदर्शन करते हैं।
नाम विभक्ति: रोमानियाई में व्याकरणिक मामले के अनुसार नाम बदलते हैं। एक ही व्यक्ति का नाम वाक्य के विभिन्न भागों में अलग दिखता है। NER मॉडल को दस्तावेज़ में नामों को लिंक करने के लिए इसे संभालना होगा।
गैर-पश्चिमी स्क्रिप्ट में डिटेक्शन पर भाषा अंतराल के प्रभाव के लिए हमारा APAC PII डिटेक्शन गाइड देखें।
ANSPDCP मामले कैसे विकसित होते हैं
ANSPDCP के मामले तीन पैटर्न दिखाते हैं।
BPO उल्लंघन मामले: साझा फाइलों में कोई एन्क्रिप्शन नहीं के साथ कर्मचारी ID नंबर और EU ग्राहक डेटा होते हैं। खराब लॉग का मतलब है कि फर्म यह नहीं बता सकती कि कौन से रिकॉर्ड एक्सेस किए गए। यह जांच को लंबा खींचता है और जुर्माना बढ़ाता है।
हेल्थकेयर एक्सपोजर: रोगी फाइलें — राष्ट्रीय ID, स्वास्थ्य कार्ड ID और निदान — गलत व्यक्ति के पास पहुंच जाती हैं। PII टूल में इस प्रारूप के लिए कोई समर्थन नहीं था। डेटा बिना मास्किंग के चला गया।
सीमापार ट्रांसफर विफलताएं: एक आउटसोर्सिंग फर्म पहचानकर्ता-लिंक्ड रिकॉर्ड गैर-EEA पार्टी को भेजती है। कोई ट्रांसफर इम्पैक्ट असेसमेंट नहीं। कोई मानक संविदात्मक खंड नहीं। डेटा की Article 9 स्थिति एक नियमित अंतराल को अधिक गंभीर उल्लंघन में बदल देती है।
ANSPDCP अनुपालन के लिए तीन नियंत्रण
ये तीन न्यूनतम तकनीकी आधार रेखा बनाते हैं:
- मॉड्यूलो-11 सत्यापन के साथ CNP डिटेक्शन — केवल पैटर्न मिलान पर्याप्त नहीं है।
- डायक्रिटिक-जागरूक NER — UTF-8 और Latin-2 स्रोतों दोनों में ș, ț, ă, â और î को कवर करें।
- ID कार्ड डिटेक्शन — राष्ट्रीय कार्ड कई दस्तावेज प्रकारों में CNP के साथ दिखाई देता है।
राष्ट्रीय ID GDPR जोखिम कैसे पैदा करती हैं, इसके व्यापक दृष्टिकोण के लिए हमारा EU राष्ट्रीय कर ID डिटेक्शन गाइड देखें।