ANSPDCP رومانی: شناسایی CNP و بررسیهای GDPR
بروزرسانی برای ۲۰۲۶
سازمان حفاظت داده رومانی ANSPDCP است. ارزیابی ۲۰۲۴ این سازمان نشان داد که ۷۸٪ از ابزارهای PII در شناسایی Cod Numeric Personal یا CNP شکست میخورند. اکثر مرحله چکسام را نادیده میگیرند. این شکاف خطر واقعی انطباق ایجاد میکند. رومانی دادههای اتحادیه اروپا را برای بسیاری از مشتریان غربی پردازش میکند. خطر گسترده است.
غنیترین شناسه ملی رومانی از نظر داده
CNP یک شناسه ملی ۱۳ رقمی است. هر گروه رقم داده شخصی را در خود نگه میدارد:
- رقم ۱: کد جنسیت و قرن. مرد متولد ۱۹۰۰–۱۹۹۹ = ۱. زن متولد ۱۹۰۰–۱۹۹۹ = ۲. مرد متولد ۲۰۰۰+ = ۵. زن متولد ۲۰۰۰+ = ۶. مرد مقیم خارجی = ۷. زن مقیم خارجی = ۸. سایر مقیمان = ۹.
- ارقام ۲–۳: دو رقم آخر سال تولد.
- ارقام ۴–۵: ماه تولد (۰۱–۱۲).
- ارقام ۶–۷: روز تولد (۰۱–۳۱).
- ارقام ۸–۹: کد شهرستان. ۴۱ شهرستان و شش بخش بخارست را پوشش میدهد (کدهای ۰۱–۵۲).
- ارقام ۱۰–۱۲: ترتیب تولد در آن روز و شهرستان.
- رقم ۱۳: رقم کنترلی.
رقم ۱ به تنهایی جنس بیولوژیکی را آشکار میکند. طبق ماده ۹ GDPR، این عدد را به یک داده دسته خاص تبدیل میکند. به حفاظت قویتری نسبت به داده شخصی معمولی نیاز دارد.
نحوه کارکرد رقم کنترلی: ۱۲ رقم اول را بگیرید. هر کدام را در وزن خود ضرب کنید (۲، ۷، ۹، ۱، ۴، ۶، ۳، ۵، ۸، ۲، ۷، ۹). نتایج را جمع بزنید. بر ۱۱ تقسیم کنید و باقیمانده را بگیرید. باقیمانده ۱۰ رقم کنترلی ۱ را میدهد. باقیمانده ۱۱ به معنای نامعتبر بودن کد است. هر باقیمانده دیگری رقم کنترلی است.
ابزارهایی که این آزمون را نادیده میگیرند دو حالت شکست دارند. اول، هر رشته ۱۳ رقمی به عنوان تطابق علامتگذاری میشود (مثبت کاذب). دوم، یک عدد خراب آزمون الگو را رد میکند اما داده بدی دارد. آن داده نیاز به بررسی دارد و از دست میرود (منفی کاذب).
مشکلات NER در اسناد به زبان رومانیایی
یافتن شناسهها تنها بخشی از کار است. متن رومانیایی موانع شناسایی بیشتری اضافه میکند.
دیاکریتیکها: رومانیایی از ș، ț، ă، â، و î استفاده میکند. ابزارهایی که روی زبانهای دیگر آموزش دیدهاند اغلب نامهایی با این حروف را از دست میدهند. اسناد قدیمی با رمزگذاری Latin-2 شکستهای بیشتری اضافه میکند.
قالبهای آدرس: انواع خیابان از فرمهای کوتاه استفاده میکنند — Str.، Bd.، Al.، Cal. نامهای شهر و بخش از قوانین محلی پیروی میکنند. تجزیهگرهای ساختهشده برای آدرسهای فرانسوی یا آلمانی عملکرد ضعیفی دارند.
تصریف اسم: نامها در زبان رومانیایی بر اساس حالت دستوری تغییر میکنند. نام یک شخص در قسمتهای مختلف یک جمله متفاوت به نظر میرسد. مدلهای NER باید این را برای پیوند نامها در یک سند مدیریت کنند.
برای نحوه تأثیر شکافهای زبانی بر شناسایی در اسکریپتهای غیرغربی، راهنمای شناسایی PII آسیا-اقیانوسیه ما را ببینید.
نحوه توسعه پروندههای ANSPDCP
پروندههای ANSPDCP سه الگو را نشان میدهند.
پروندههای نقض BPO: فایلهای مشترک شمارههای شناسایی کارمند و دادههای مشتریان اتحادیه اروپا را بدون رمزگذاری در خود دارند. گزارشهای ضعیف به این معنی است که شرکت نمیتواند بگوید به کدام سوابق دسترسی داشته شده. این تحقیق را طولانی میکند و جریمه را افزایش میدهد.
افشای بهداشتی: پروندههای بیمار — شناسه ملی، شناسه کارت بهداشت، و تشخیص — به شخص اشتباه میرسند. ابزار PII پشتیبانی از این قالب را نداشت. داده بدون پوششدهی خارج شد.
شکستهای انتقال بینالمللی: یک شرکت برونسپاری سوابق مرتبط با شناسه را به طرف غیر EEA ارسال میکند. هیچ ارزیابی تأثیر انتقال نیست. هیچ بند قرارداد استاندارد نیست. وضعیت ماده ۹ داده، یک شکاف معمولی را به یک نقض جدیتر تبدیل میکند.
سه کنترل برای انطباق با ANSPDCP
این سه، حداقل خط پایه فنی را تشکیل میدهند:
- شناسایی CNP با اعتبارسنجی modulo-11 — تطابق الگو به تنهایی کافی نیست.
- NER آگاه از دیاکریتیک — ș، ț، ă، â، و î را هم در منابع UTF-8 و هم Latin-2 پوشش دهید.
- شناسایی کارت شناسایی — کارت ملی در بسیاری از انواع اسناد در کنار CNP ظاهر میشود.
برای دیدی گستردهتر از نحوه ایجاد خطر GDPR توسط شناسههای ملی، راهنمای شناسایی شماره مالیاتی ملی اتحادیه اروپا ما را ببینید.