بروزرسانی برای ۲۰۲۶

سازمان حفاظت داده رومانی ANSPDCP است. ارزیابی ۲۰۲۴ این سازمان نشان داد که ۷۸٪ از ابزارهای PII در شناسایی Cod Numeric Personal یا CNP شکست می‌خورند. اکثر مرحله چک‌سام را نادیده می‌گیرند. این شکاف خطر واقعی انطباق ایجاد می‌کند. رومانی داده‌های اتحادیه اروپا را برای بسیاری از مشتریان غربی پردازش می‌کند. خطر گسترده است.

غنی‌ترین شناسه ملی رومانی از نظر داده

CNP یک شناسه ملی ۱۳ رقمی است. هر گروه رقم داده شخصی را در خود نگه می‌دارد:

رقم ۱: کد جنسیت و قرن. مرد متولد ۱۹۰۰–۱۹۹۹ = ۱. زن متولد ۱۹۰۰–۱۹۹۹ = ۲. مرد متولد ۲۰۰۰+ = ۵. زن متولد ۲۰۰۰+ = ۶. مرد مقیم خارجی = ۷. زن مقیم خارجی = ۸. سایر مقیمان = ۹.
ارقام ۲–۳: دو رقم آخر سال تولد.
ارقام ۴–۵: ماه تولد (۰۱–۱۲).
ارقام ۶–۷: روز تولد (۰۱–۳۱).
ارقام ۸–۹: کد شهرستان. ۴۱ شهرستان و شش بخش بخارست را پوشش می‌دهد (کدهای ۰۱–۵۲).
ارقام ۱۰–۱۲: ترتیب تولد در آن روز و شهرستان.
رقم ۱۳: رقم کنترلی.

رقم ۱ به تنهایی جنس بیولوژیکی را آشکار می‌کند. طبق ماده ۹ GDPR، این عدد را به یک داده دسته خاص تبدیل می‌کند. به حفاظت قوی‌تری نسبت به داده شخصی معمولی نیاز دارد.

نحوه کارکرد رقم کنترلی: ۱۲ رقم اول را بگیرید. هر کدام را در وزن خود ضرب کنید (۲، ۷، ۹، ۱، ۴، ۶، ۳، ۵، ۸، ۲، ۷، ۹). نتایج را جمع بزنید. بر ۱۱ تقسیم کنید و باقیمانده را بگیرید. باقیمانده ۱۰ رقم کنترلی ۱ را می‌دهد. باقیمانده ۱۱ به معنای نامعتبر بودن کد است. هر باقیمانده دیگری رقم کنترلی است.

ابزارهایی که این آزمون را نادیده می‌گیرند دو حالت شکست دارند. اول، هر رشته ۱۳ رقمی به عنوان تطابق علامت‌گذاری می‌شود (مثبت کاذب). دوم، یک عدد خراب آزمون الگو را رد می‌کند اما داده بدی دارد. آن داده نیاز به بررسی دارد و از دست می‌رود (منفی کاذب).

مشکلات NER در اسناد به زبان رومانیایی

یافتن شناسه‌ها تنها بخشی از کار است. متن رومانیایی موانع شناسایی بیشتری اضافه می‌کند.

دیاکریتیک‌ها: رومانیایی از ș، ț، ă، â، و î استفاده می‌کند. ابزارهایی که روی زبان‌های دیگر آموزش دیده‌اند اغلب نام‌هایی با این حروف را از دست می‌دهند. اسناد قدیمی با رمزگذاری Latin-2 شکست‌های بیشتری اضافه می‌کند.

قالب‌های آدرس: انواع خیابان از فرم‌های کوتاه استفاده می‌کنند — Str.، Bd.، Al.، Cal. نام‌های شهر و بخش از قوانین محلی پیروی می‌کنند. تجزیه‌گرهای ساخته‌شده برای آدرس‌های فرانسوی یا آلمانی عملکرد ضعیفی دارند.

تصریف اسم: نام‌ها در زبان رومانیایی بر اساس حالت دستوری تغییر می‌کنند. نام یک شخص در قسمت‌های مختلف یک جمله متفاوت به نظر می‌رسد. مدل‌های NER باید این را برای پیوند نام‌ها در یک سند مدیریت کنند.

برای نحوه تأثیر شکاف‌های زبانی بر شناسایی در اسکریپت‌های غیرغربی، راهنمای شناسایی PII آسیا-اقیانوسیه ما را ببینید.

نحوه توسعه پرونده‌های ANSPDCP

پرونده‌های ANSPDCP سه الگو را نشان می‌دهند.

پرونده‌های نقض BPO: فایل‌های مشترک شماره‌های شناسایی کارمند و داده‌های مشتریان اتحادیه اروپا را بدون رمزگذاری در خود دارند. گزارش‌های ضعیف به این معنی است که شرکت نمی‌تواند بگوید به کدام سوابق دسترسی داشته شده. این تحقیق را طولانی می‌کند و جریمه را افزایش می‌دهد.

افشای بهداشتی: پرونده‌های بیمار — شناسه ملی، شناسه کارت بهداشت، و تشخیص — به شخص اشتباه می‌رسند. ابزار PII پشتیبانی از این قالب را نداشت. داده بدون پوشش‌دهی خارج شد.

شکست‌های انتقال بین‌المللی: یک شرکت برون‌سپاری سوابق مرتبط با شناسه را به طرف غیر EEA ارسال می‌کند. هیچ ارزیابی تأثیر انتقال نیست. هیچ بند قرارداد استاندارد نیست. وضعیت ماده ۹ داده، یک شکاف معمولی را به یک نقض جدی‌تر تبدیل می‌کند.

سه کنترل برای انطباق با ANSPDCP

این سه، حداقل خط پایه فنی را تشکیل می‌دهند:

شناسایی CNP با اعتبارسنجی modulo-11 — تطابق الگو به تنهایی کافی نیست.
NER آگاه از دیاکریتیک — ș، ț، ă، â، و î را هم در منابع UTF-8 و هم Latin-2 پوشش دهید.
شناسایی کارت شناسایی — کارت ملی در بسیاری از انواع اسناد در کنار CNP ظاهر می‌شود.

برای دیدی گسترده‌تر از نحوه ایجاد خطر GDPR توسط شناسه‌های ملی، راهنمای شناسایی شماره مالیاتی ملی اتحادیه اروپا ما را ببینید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

ANSPDCP رومانی: شناسایی CNP و بررسی‌های GDPR