GDPR داده‌های شخصی را در هر زبانی پوشش می‌دهد. آلمانی، فرانسوی، لهستانی، سوئدی — همه به یک اندازه پوشش داده می‌شوند. یک Steuer-ID از دست رفته همان ریسک قانونی یک شماره تأمین اجتماعی آمریکایی از دست رفته را ایجاد می‌کند. قانون به زبان اهمیت نمی‌دهد.

اکثر ابزارهای تشخیص PII این‌گونه نیستند.

ابزارهای تجاری و متن‌باز پیشرو برای متن انگلیسی ساخته شده‌اند. آشکارسازهای موجودیت آن‌ها این را نشان می‌دهند. آن‌ها شماره‌های تأمین اجتماعی آمریکا، گواهینامه رانندگی آمریکا، و فرمت‌های تلفن NANP را به‌خوبی پوشش می‌دهند. آشکارسازها برای شناسه‌های ملی غیرانگلیسی دقیق‌تر نیستند. کمتر به‌روز نگه داشته می‌شوند. بیشتر شناسه‌های واقعی را از دست می‌دهند.

برای شرکت‌ها در سراسر کشورهای عضو اتحادیه اروپا، این یک شکاف پوشش ایجاد می‌کند. ابزار می‌گوید تشخیص کامل است. اما شناسه‌های غیرانگلیسی در داده باقی می‌مانند. اینها اغلب شناسه‌هایی هستند که در کشورهای خاص بیشترین مواجهه GDPR را دارند.

مراجع داده این را می‌بینند. بازرسان به دنبال آن می‌گردند. یک ابزار ممکن است روی پرونده‌های انگلیسی خوب کار کند. اما اگر روی پرونده‌های آلمانی یا فرانسوی شکست بخورد، انطباق ندارد. یک گزارش تمیز این را تغییر نمی‌دهد.

شناسه‌های ملی از نظر ساختار متفاوتند

شکاف بین ابزارهای انگلیسی‌محور و ابزارهای چندزبانه، درباره اضافه کردن الگوهای regex بیشتر نیست. شناسه‌های ملی اتحادیه اروپا از یکدیگر بسیار متفاوتند. برای تشخیص صحیح به منطق خاص هر کشور نیاز دارند.

Steuer-Identifikationsnummer آلمانی (Steuer-ID): ۱۱ رقم. از یک چک‌سام بر اساس یک نوع فرمول Luhn استفاده می‌کند. یک regex عمومی SSN آن را تشخیص نخواهد داد. یک regex برای هر عدد ۱۱ رقمی در اسناد آلمانی مثبت کاذب زیادی ایجاد می‌کند.

NIR فرانسوی (Numéro d'inscription au répertoire): ۱۵ رقم. فرمت جنسیت، سال تولد، ماه تولد، و استان تولد را کدگذاری می‌کند. همچنین شامل ترتیب تولد و یک کلید کنترل ۲ رقمی است. کلید کنترل باید برای تشخیص صحیح اعتبارسنجی شود.

Personnummer سوئدی: ۱۰ رقم با یک رقم بررسی Luhn. افرادی که قبل از ۱۹۹۰ متولد شده‌اند از جداکننده + به جای - استفاده می‌کنند. این فرمتی را که باید تشخیص داده شود تغییر می‌دهد.

PESEL لهستانی: ۱۱ رقم. تاریخ تولد، جنسیت، و یک رقم بررسی بر اساس مجموع وزن‌دار را کدگذاری می‌کند. تشخیص صحیح به هر دو تطابق فرمت و اعتبارسنجی چک‌سام نیاز دارد.

اینها گونه‌های یک الگوی مشترک نیستند. هر کدام طول متفاوتی دارند. هر کدام از روش بررسی متفاوتی استفاده می‌کنند. هر کدام داده را در یک طرح موقعیتی متفاوت کدگذاری می‌کنند. یک مدل NER آموزش‌دیده بر انگلیسی که یک NIR فرانسوی می‌بیند آن را به عنوان شناسه ملی تشخیص نخواهد داد. آن را نادیده می‌گیرد یا اشتباه طبقه‌بندی می‌کند.

ریسک انطباق عملی

یک مسئول انطباق در یک BPO اروپایی را در نظر بگیرید. آن‌ها به‌طور همزمان داده‌هایی از آلمان، فرانسه، لهستان، و هلند پردازش می‌کنند. ابزارشان گزارش ناشناس‌سازی موفق PII می‌دهد.

اما نتیجه کامل نیست. Steuer-IDها در پرونده‌های آلمانی باقی می‌مانند. شماره‌های NIR در پرونده‌های فرانسوی باقی می‌مانند. شماره‌های PESEL در پرونده‌های لهستانی باقی می‌مانند. آشکارسازهای ابزار برای این فرمت‌ها غایب یا خیلی نادقیق هستند.

بعداً، مجموعه داده به تجزیه‌وتحلیل یا یک شریک تحقیقاتی می‌رود. داده هنوز حاوی شناسه‌های ملی قابل شناسایی مجدد است. مشکل GDPR در گزارش‌های خروجی ابزار ظاهر نمی‌شود. وقتی درخواست دسترسی موضوع داده می‌رسد ظاهر می‌شود. ممکن است در طول بازرسی مرجع داده ظاهر شود. ممکن است بعد از نقض داده ظاهر شود.

تحقیقات مقایسه رویکردهای چندزبانه ترکیبی با ابزارهای انگلیسی‌محور نتایج روشنی نشان داد. روش‌های ترکیبی امتیازهای F1 از ۰.۶۰ تا ۰.۸۳ در مناطق اروپایی به دست می‌آورند. ابزارهای انگلیسی‌محور برای فرمت‌های شناسه ملی غیرانگلیسی امتیاز نزدیک به صفر می‌گیرند.

برای نحوه نگاشت این شکاف‌ها به تعهدات GDPR، مروری بر انطباق GDPR ما را ببینید.

آنچه پوشش کامل نیاز دارد

تشخیص واقعی PII چندزبانه برای انطباق GDPR اتحادیه اروپا به سه لایه نیاز دارد.

مدل‌های spaCy بومی‌زبان درک معنایی در زبان متن را فراهم می‌کنند. یک مدل آموزش‌دیده روی متن آلمانی می‌داند که «Müller» یک نام خانوادگی آلمانی رایج است. مدل‌ها برای ۲۵ زبان اروپایی با منابع بالا وجود دارند.

مدل‌های Stanza NLP پوشش را به زبان‌هایی که در spaCy نیستند گسترش می‌دهند. این دسترسی را برای جوامع زبانی بیشتر اتحادیه اروپا اضافه می‌کند.

مدل‌های ترانسفورمر چندزبانه (XLM-RoBERTa) موارد میان‌زبانی را مدیریت می‌کنند. یک نام در یک جمله فرانسوی به عنوان نام شخص تشخیص داده می‌شود. این حتی اگر موتور روی آن نام خاص آموزش ندیده باشد کار می‌کند.

Regex با اعتبارسنجی خاص هر کشور شناسه‌های ملی ساختارمند را پوشش می‌دهد. Steuer-ID، NIR، PESEL، و Personnummer هر کدام به منطق چک‌سام خود نیاز دارند. این مثبت‌های کاذب را کاهش می‌دهد. دنباله‌های ارقامی که قوانین اعتبارسنجی کشور را رد می‌کنند فیلتر می‌شوند.

شکاف ساختاری است. اضافه کردن لیست‌های کلمه یا الگوهای regex بیشتر فقط بهبود جزئی ایجاد می‌کند. ساختن پوشش شناسه اتحادیه اروپا از ابتدا تنها رویکرد قابل اعتماد است.

ابزار فعلی خود را بررسی کنید

از فروشنده خود امتیازهای F1 روی پرونده‌های آلمانی، فرانسوی، لهستانی، و هلندی بخواهید. «پشتیبانی از چندین زبان» اغلب به این معنی است که ابزار ابتدا از ترجمه استفاده می‌کند. این اسکن بومی نیست. انطباق GDPR نیاز به اسکن بومی دارد.

با نمونه‌های شناسه ملی واقعی آزمایش کنید. یک مجموعه آزمایشی کوتاه با ۱۰ نمونه از هر نوع شناسه در عملیاتتان بسازید. Steuer-ID، NIR، PESEL، Personnummer. نرخ‌های تشخیص را بررسی کنید. این سریع‌تر از یک آزمون F1 کامل است و شکاف‌ها را سریع نشان می‌دهد.

برای نحوه برخورد anonym.legal با این الزامات، صفحه امنیت و انطباق ما را ببینید. برای تعریف‌های نوع موجودیت، به مرجع موجودیت‌ها مراجعه کنید.

منابع

مقالات مرتبط

GDPR و انطباق

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

آغاز دوره آزمایشی رایگان مشاهده ویژگی‌ها

ابزارهای PII انگلیسی‌محور: شکاف GDPR